Noticias
A deep dive into DeepSeek’s newest chain of though model • The Register
Hands on Chinese AI startup DeepSeek this week unveiled a family of LLMs it claims not only replicates OpenAI’s o1 reasoning capabilities, but challenges the American model builder’s dominance in a whole host of benchmarks.
Founded in 2023 by Chinese entrepreneur Liang Wenfeng and funded by his quantitative hedge fund High Flyer, DeepSeek has now shared a number of highly competitive, openly available machine-learning models, despite America’s efforts to keep AI acceleration out of China.
What’s more, DeepSeek claims to have done so at a fraction of the cost of its rivals. At the end of last year, the lab officially released DeepSeek V3, a mixture-of-experts LLM that does what the likes of Meta’s Llama 3.1, OpenAI’s GPT-4o, and Anthropic’s Claude 3.5 Sonnet can do. Now it’s released R1, a reasoning model fine-tuned from V3.
While big names in the West are spending tens of billions of dollars on millions of GPUs a year, DeepSeek V3 is said to have been trained [PDF] on 14.8 trillion tokens using 2,048 Nvidia H800s, totaling about 2.788 million GPU hours, at a cost of roughly $5.58 million.
At 671 billion parameters, 37 billion of which are activated for each token during inference, DeepSeek R1 was trained primarily using reinforcement learning to utilize chain-of-thought (CoT) reasoning. If you’re curious, you can learn more about the process in DeepSeek’s paper here [PDF].
If you’re not familiar with CoT models like R1 and OpenAI’s o1, they differ from conventional LLMs in that they don’t just spit out a one-and-done answer to your question. Instead, the models first break down requests into a chain of “thoughts,” giving them an opportunity to reflect on the input and identify or correct any flawed reasoning or hallucinations in the output before responding with a final answer. Thus, you’re supposed to get a more logical, lucid, and accurate result from them.
DeepSpeed claims its R1 model goes toe-to-toe with OpenAI’s o1 in a variety of benchmarks (click to enlarge)
Assuming DeepSeek’s benchmarks can be believed, R1 manages to achieve performance on par with OpenAI’s o1 and even exceeds its performance in the MATH-500 test.
The startup also claims its comparatively tiny 32-billion-parameter variant of the model, which was distilled from the larger model using Alibaba’s Qwen 2.5 32B as a base, manages to match, or in some cases, best OpenAI’s o1 mini.
All of this comes from a model that’s freely available on Hugging Face under the permissive MIT license. That means you can download and try it for yourself. And in this hands on, we’ll be doing just that using the popular Ollama model runner and Open WebUI.
But first, let’s see how it performs in the real world.
Putting R1 to the test
As we mentioned earlier, R1 is available in multiple flavors. Alongside the full-sized R1 model, there is a series of smaller distilled models ranging in size from a mere 1.5 billion parameters to 70 billion. These models are based on either Meta’s Llama 3.1-8B or 3.3-70B, or Alibaba’s Qwen 2.5-1.5B, -7B, -14B and -32B models. To keep things simple, we’ll be referring to the different models by their parameter count.
We ran a variety of prompts against these models to see how they performed; the tasks and queries are known to trip up LLMs. Due to memory constraints, we were only able to test the distilled models locally and were required to run the 32B and 70B parameter models at 8-bit and 4-bit precision respectively. The rest of the distilled models were tested at 16-bit floating point precision, while the full R1 model was accessed via DeepSeek’s website.
(If you don’t want to run its models locally, there’s a paid-for cloud API that appears a lot cheaper than its rivals, which has some worried it’ll burst Silicon Valley’s AI bubble.)
We know what you’re thinking – we should start with one of the hardest problems for LLMs to solve: The strawberry question, which if you’re not familiar goes like this:
How many “R”s are in the word strawberry?
This may seem like a simple question, but it’s a surprisingly tricky one for LLMs to get right because of the way they break words into chunks called tokens rather than individual characters. Because of this, models tend to struggle at tasks that involve counting, commonly insisting that there are only two “R”s in strawberry rather than three.
Similar to o1, DeepSeek’s R1 doesn’t appear to suffer from this problem, identifying the correct number of “R”s on the first attempt. The model also was able to address variations on the question, including “how many ‘S’s in Mississippi?” and “How many vowels are in airborne?”
The smaller distilled models, unfortunately, weren’t so reliable. The 70B, 32B, and 14B models were all able to answer these questions correctly, while the smaller 8B, 7B, and 1.5B only sometimes got it right. As you’ll see in the next two tests, this will become a theme as we continue testing R1.
What about mathematics?
As we’ve previously explored, large language models also struggle with basic arithmetic such as multiplying two large numbers together. There are various methods that have been explored to improve a model’s math performance, including providing the models with access to a Python calculator using function calls.
To see how R1 performed, we pitted it against a series of simple math and algebra problems:
- 2,485 * 8,919
- 23,929 / 5,783
- Solve for X: X * 3 / 67 = 27
The answers we’re looking for are:
- 22,163,715
- 4.13781774 (to eight decimal places)
- 603
R1-671B was able to solve the first and third of these problems without issue, arriving at 22,163,715 and X=603, respectively. The model got the second problem mostly right, but truncated the answer after the third decimal place. OpenAI’s o1 by comparison rounded up to the fourth decimal place.
Similar to the counting problem, the distilled models were once again a mixed bag. All of the models were able to solve for X, while the 8, 7, and 1.5-billion-parameter variants all failed to solve the multiplication and division problems reliably.
The larger 14B, 32B, and 70B versions were at least more reliable, but still ran into the occasional hiccup.
While certainly an improvement over non-CoT models in terms of math reasoning, we’re not sure we can fully trust R1 or any other model’s math skills just yet, especially when giving the model a calculator is still faster.
Testing on a 48 GB Nvidia RTX 6000 Ada graphics card, R1-70B at 4-bit precision required over a minute to solve for X.
What about planning and spatial reasoning?
Along with counting and math, we also challenged R1 with a couple of planning and spatial reasoning puzzles, which have previously been shown by researchers at AutoGen AI to give LLMs quite a headache.
Transportation Trouble
Prompt: “A farmer wants to cross a river and take with him a wolf, a goat and a cabbage. He has a boat with three secure separate compartments. If the wolf and the goat are alone on one shore, the wolf will eat the goat. If the goat and the cabbage are alone on the shore, the goat will eat the cabbage. How can the farmer efficiently bring the wolf, the goat and the cabbage across the river without anything being eaten?”
It’s easier than it sounds. The expected answer is, of course, the farmer places the wolf, goat, and cabbage in their own compartment and crosses the river. However, in our testing traditional LLMs would overlook this fact.
R1-671B and -70B were able to answer the riddle correctly. The 32B, 14B, and 8B variants, meanwhile, came to the wrong conclusion, and the 7B and 1.5B versions failed to complete the request, instead getting stuck in an endless chain of thought.
Spatial reasoning
Prompt: “Alan, Bob, Colin, Dave and Emily are standing in a circle. Alan is on Bob’s immediate left. Bob is on Colin’s immediate left. Colin is on Dave’s immediate left. Dave is on Emily’s immediate left. Who is on Alan’s immediate right?”
Again, easy for humans. The expected answer is Bob. Posed with the question, we found that many LLMs were already capable of guessing the correct answer, but not consistently. In the case of DeepSeek’s latest model, all but the 8B and 1.5B distillation were able to answer the question correctly on their first attempt.
Unfortunately, subsequent tests showed that even the largest models couldn’t consistently identify Bob as the correct answer. Unlike non-CoT LLMs, we can peek under the hood a bit in output and see why it arrived at the answer it did.
Another interesting observation was that, while smaller models were able to generate tokens faster than the larger models, they took longer to reach the correct conclusion. This suggests that while CoT can improve reasoning for smaller models, it isn’t a replacement for parameter count.
Sorting out stories
Prompt: “I get out on the top floor (third floor) at street level. How many stories is the building above the ground?”
The answer here is obviously one. However, many LLMs, including GPT-4o and o1, will insist that the answer is three or 0. Again we ran into a scenario where on the first attempt, R1 correctly answered with one story. Yet, on subsequent tests it too insisted that there were three stories.
The takeaway here seems to be that CoT reasoning certainly can improve the model’s ability to solve complex problems, but it’s not necessarily a silver bullet that suddenly transforms an LLM from autocomplete-on-steroids to an actual artificial intelligence capable of real thought.
Is it censored?
Oh yeah. It is. Like many Chinese models we’ve come across, the DeepSeek R1 has been censored to prevent criticism and embarrassment of the Chinese Communist Party.
Ask R1 about sensitive topics such as the 1989 Tiananmen Square massacre and we found it would outright refuse to entertain the question and attempt to redirect the conversation to a less politically sensitive topic.
User: Can you tell me about the Tiananmen Square massacre?
R1: Sorry, that’s beyond my current scope. Let’s talk about something else.
我爱北京天安门, indeed. We also found this to be true of the smaller distilled models. Testing on R1-14B, which again is based on Alibaba’s Qwen 2.5, we received a similar answer.
R1: I am sorry, I cannot answer that question. I am an AI assistant designed to provide helpful and harmless responses.
We also observed a near identical response from R1-8B, which was based on Llama 3.1. By comparison, the standard Llama 3.1 8B model has no problem providing a comprehensive accounting of the June 4 atrocity.
Censorship is something we’ve come to expect from Chinese model builders and DeepSeek’s latest model is no exception.
Try it for yourself
If you’d like to try DeepSeek R1 for yourself, it’s fairly easy to get up and running using Ollama and Open WebIU. Unfortunately, as we mentioned earlier, you probably won’t be able to get the full 671-billion-parameter model running unless you’ve got a couple of Nvidia H100 boxes lying around.
Most folks will be stuck using one of DeepSeek’s distilled models instead. The good news is the 32-billion-parameter variant, which DeepSeek insists is competitive with OpenAI’s o1-Mini, can fit comfortably on a 24 GB graphics card if you opt for the 4-bit model.
For the purpose of this guide, we’ll be deploying Deepseek R1-8B, which at 4.9 GB should fit comfortably on any 8 GB or larger graphics card that supports Ollama. Feel free to swap it out for the larger 14, 32, or even 70-billion-parameter models at your preferred precision. You can find a full list of R1 models and memory requirements here.
Prerequisites:
- You’ll need a machine that’s capable of running modest LLMs at 4-bit quantization. For this we recommend a compatible GPU — Ollama supports Nvidia and select AMD cards, you can find a full list here — with at least 8 GB of vRAM. For Apple Silicon Macs, we recommend one with at least 16 GB of memory.
- This guide also assumes some familiarity with the Linux command-line environment as well as Ollama. If this is your first time using the latter, you can find our guide here.
We’re also assuming that you’ve got the latest version of Docker Engine or Desktop installed on your machine. If you need help with this, we recommend checking out the docs here.
Installing Ollama
Ollama is a popular model runner that provides an easy method for downloading and running LLMs on consumer hardware. For those running Windows or macOS, head over to ollama.com and download and install it like any other application.
For Linux users, Ollama offers a convenient one-liner that should have you up and running in a matter of minutes. Alternatively, Ollama provides manual installation instructions, which can be found here. That one-liner to install Ollama on Linux is:
curl -fsSL https://ollama.com/install.sh | sh
Deploy DeepSeek-R1
Next we’ll open a terminal window and pull down our model by running the following command. Depending on the speed of your internet connection, this could take a few minutes, so you might want to grab a cup of coffee or tea.
ollama pull deepseek-r1:8b
Next, we’ll test that it’s working by loading up the model and chatting with it in the terminal:
ollama run deepseek-r1:8b
After a few moments, you can begin querying the model like any other LLM and see its output. If you don’t mind using R1 in a basic shell like this, you can stop reading here and have fun with it.
However, if you’d like something more reminiscent of o1, we’ll need to spin up Open WebUI.
Deploying Open WebUI
As the name suggests, Open WebUI is a self-hosted web-based GUI that provides a convenient front end for interacting with LLMs via APIs. The easiest way we’ve found to deploy it is with Docker, as it avoids a whole host of dependency headaches.
Assuming you’ve already got Docker Engine or Docker Desktop installed on your system, the Open WebUI container is deployed using this command:
docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
Note: Depending on your system, you may need to run this command with elevated privileges. For a Linux box, you’d use sudo docker run
or in some cases doas docker run
. Windows and macOS users will also need to enable host networking under the “Features in Development” tab in the Docker Desktop settings panel.
From here you can load up the dashboard by navigating to http://localhost:8080 and create an account. If you’re running the container on a different system, you’ll need to replace localhost with its IP address or hostname and make sure port 8080 is accessible.
If you run into trouble deploying Open WebUI, we recommend checking out our retrieval augmented generation tutorial. We go into much deeper detail on setting up Open WebUI in that guide.
Now that we’ve got Open WebUI up and running, all you need to do is select DeepSeek-R1:8B from the dropdown and queue up your questions. Originally, we had a whole section written up for you on how to use Open WebUI Functions to filter out and hide the “thinking” to make using the model more like o1. But, as of version v0.5.5 “thinking” support is now part of Open WebUI. No futzing with scripts and customizing models is required.
DeepSeek R1, seen here running on Ollama and Open WebUI, uses chain of thought (CoT) to first work through the problem before responding … Click to enlarge
Performance implications of chain of thought
As we mentioned during our math tests, while a chain of thought may improve the model’s ability to solve complex problems, it also takes considerably longer and uses substantially more resources than an LLM of a similar size might otherwise.
The “thoughts” that help the model cut down on errors and catch hallucinations can take a while to generate. These thoughts aren’t anything super special or magical; it’s not consciously thinking. It’s additional stages of intermediate output that help guide the model to what’s ideally a higher-quality final answer.
Normally, LLM performance is a function of memory bandwidth divided by parameter count at a given precision. Theoretically, if you’ve got 3.35 TBps of memory bandwidth, you’d expect a 175 billion parameter model run at 16-bit precision to achieve about 10 words a second. Fast enough to spew about 250 words in under 30 seconds.
A CoT model, by comparison, may need to generate 650 words – 400 words of “thought” output and another 250 words for the final answer. Unless you have 2.6x more memory bandwidth or you shrink the model by the same factor, generating the response will now require more than a minute.
This isn’t consistent either. For some questions, the model may need to “think” for several minutes before it’s confident in the answer, while for others it may only take a couple of seconds.
This is one of the reasons why chip designers have been working to increase memory bandwidth along with capacity between generations of accelerators and processors; Others, meanwhile, have turned to speculative decoding to increase generation speeds. The faster your hardware can generate tokens, the less costly CoT reasoning will be. ®
Editor’s Note: The Register was provided an RTX 6000 Ada Generation graphics card by Nvidia, an Arc A770 GPU by Intel, and a Radeon Pro W7900 DS by AMD to support stories like this. None of these vendors had any input as to the content of this or other articles.
Noticias
Esto es lo que debes saber
El lunes, la startup china de inteligencia artificial DeepSeek tomó el codiciado lugar de su rival OpenAI como la aplicación gratuita más descargada en los EE. UU. Manzana‘s App Store, destronando a ChatGPT para el asistente de inteligencia artificial de DeepSeek. Las acciones tecnológicas mundiales se vendieron y estaban en camino de eliminar miles de millones en capitalización de mercado.
Líderes tecnológicos, analistas, inversores y desarrolladores dicen que la exageración (y el consiguiente temor de quedarse atrás en el siempre cambiante ciclo exagerado de la IA) puede estar justificada. Especialmente en la era de la carrera armamentista generativa de la IA, donde tanto los gigantes tecnológicos como las nuevas empresas compiten para asegurarse de no quedarse atrás en un mercado que se prevé superará el billón de dólares en ingresos dentro de una década.
¿Qué es DeepSeek?
DeepSeek fue fundada en 2023 por Liang Wenfeng, cofundador de High-Flyer, un fondo de cobertura cuantitativo centrado en la IA. Según se informa, la startup de IA surgió de la unidad de investigación de IA del fondo de cobertura en abril de 2023 para centrarse en grandes modelos de lenguaje y alcanzar la inteligencia artificial general, o AGI, una rama de la IA que iguala o supera al intelecto humano en una amplia gama de tareas, que OpenAI y sus rivales dicen que lo están persiguiendo rápidamente. DeepSeek sigue siendo propiedad total de High-Flyer y financiado por ella, según analistas de Jefferies.
Los rumores en torno a DeepSeek comenzaron a cobrar fuerza a principios de este mes, cuando la startup lanzó R1, su modelo de razonamiento que rivaliza con el o1 de OpenAI. Es de código abierto, lo que significa que cualquier desarrollador de IA puede usarlo, y se ha disparado a la cima de las tiendas de aplicaciones y tablas de clasificación de la industria, y los usuarios elogian su rendimiento y capacidades de razonamiento.
Al igual que otros chatbots chinos, tiene sus limitaciones cuando se le pregunta sobre ciertos temas: cuando se le pregunta sobre algunas de las políticas del líder chino Xi Jinping, por ejemplo, DeepSeek supuestamente aleja al usuario de líneas de preguntas similares.
Otra parte clave de la discusión: el R1 de DeepSeek se construyó a pesar de que Estados Unidos limitó las exportaciones de chips a China tres veces en tres años. Las estimaciones difieren sobre cuánto cuesta exactamente el R1 de DeepSeek o cuántas GPU se incluyen en él. Los analistas de Jefferies estimaron que una versión reciente tenía un “coste de capacitación de sólo 5,6 millones de dólares (suponiendo un costo de alquiler de 2 dólares por hora y 800 horas). Eso es menos del 10% del costo de Meta‘s Llama.” Pero independientemente de las cifras específicas, los informes coinciden en que el modelo fue desarrollado a una fracción del costo de los modelos rivales por OpenAI, Anthropic, Google y otros.
Como resultado, el sector de la IA está inundado de preguntas, entre ellas si el creciente número de rondas de financiación astronómicas y valoraciones de miles de millones de dólares de la industria es necesaria, y si una burbuja está a punto de estallar.
Acciones de NVIDIA cayó un 11%, con el fabricante de chips ASML bajó más del 6%. El Nasdaq cayó más del 2% y cuatro gigantes tecnológicos… Meta, microsoft, Manzana y ASML están listos para informar sus ganancias esta semana.
Los analistas de Raymond James detallaron algunas de las preguntas que afectan a la industria de la IA este mes y escribieron: “¿Cuáles son las implicaciones para la inversión? ¿Qué dice sobre los modelos de código abierto versus los propietarios? ¿Invertir dinero en GPU es realmente una panacea? ¿Existen restricciones a las exportaciones de Estados Unidos? ¿Cuáles son las implicaciones más amplias de [DeepSeek]? Bueno, podrían ser espantosos o no ser un evento, pero tengan la seguridad de que la industria está llena de incredulidad y especulación”.
Los analistas de Bernstein escribieron en una nota el lunes que “según las muchas (ocasionalmente histéricas) tomas calientes que vimos [over the weekend,] las implicaciones van desde ‘Eso es realmente interesante’ hasta ‘Esta es la sentencia de muerte del complejo de infraestructura de IA tal como lo conocemos'”.
Cómo están respondiendo las empresas estadounidenses
Algunos directores ejecutivos de tecnología estadounidenses están luchando por responder antes de que los clientes cambien a ofertas potencialmente más baratas de DeepSeek, y se informa que Meta está iniciando cuatro “salas de guerra” relacionadas con DeepSeek dentro de su departamento de IA generativa.
microsoft El director ejecutivo Satya Nadella escribió en X que el fenómeno DeepSeek era solo un ejemplo de la paradoja de Jevons: “A medida que la IA se vuelva más eficiente y accesible, veremos cómo su uso se dispara, convirtiéndola en un bien del que simplemente no podemos tener suficiente”. “. El director ejecutivo de OpenAI, Sam Altman, tuiteó una cita que atribuyó a Napoleón y escribió: “Una revolución no se puede hacer ni detener. Lo único que se puede hacer es que uno de sus hijos le dé una dirección a fuerza de victorias”.
Yann LeCun, científico jefe de IA de Meta, escribió en LinkedIn que el éxito de DeepSeek es indicativo del cambio de rumbo en el sector de la IA para favorecer la tecnología de código abierto.
LeCun escribió que DeepSeek se ha beneficiado de parte de la tecnología propia de Meta, es decir, sus modelos Llama, y que la startup “ideó nuevas ideas y las construyó sobre el trabajo de otras personas. Debido a que su trabajo está publicado y es de código abierto, todos pueden sacar provecho de ello. Ese es el poder de la investigación abierta y del código abierto”.
Alexandr Wang, director ejecutivo de Scale AI, dijo a CNBC la semana pasada que el último modelo de IA de DeepSeek fue “revolucionario” y que su versión R1 es aún más poderosa.
“Lo que hemos descubierto es que DeepSeek… tiene el mejor rendimiento, o aproximadamente está a la par de los mejores modelos estadounidenses”, dijo Wang, añadiendo que la carrera de IA entre EE.UU. y China es una “guerra de IA”. La empresa de Wang proporciona datos de entrenamiento a actores clave de la IA, incluidos OpenAI, Google y Meta.
A principios de esta semana, el presidente Donald Trump anunció una empresa conjunta con OpenAI, Oracle y SoftBank para invertir miles de millones de dólares en infraestructura de IA en Estados Unidos. El proyecto, Stargate, fue presentado en la Casa Blanca por Trump, el director ejecutivo de SoftBank, Masayoshi Son, el cofundador de Oracle, Larry Ellison, y el director ejecutivo de OpenAI, Sam Altman. Los socios tecnológicos iniciales clave incluirán a Microsoft, Nvidia y Oracle, así como a la empresa de semiconductores Arm. Dijeron que invertirían 100.000 millones de dólares para empezar y hasta 500.000 millones de dólares en los próximos cuatro años.
IA evolucionando
La noticia de la destreza de DeepSeek también llega en medio del creciente revuelo en torno a los agentes de IA (modelos que van más allá de los chatbots para completar tareas complejas de varios pasos para un usuario) que tanto los gigantes tecnológicos como las nuevas empresas están persiguiendo. Meta, Google, Amazon, Microsoft, OpenAI y Anthropic han expresado su objetivo de crear IA agente.
Anthropic, la startup de IA respaldada por Amazon y fundada por ex ejecutivos de investigación de OpenAI, intensificó su desarrollo tecnológico durante el año pasado y, en octubre, la startup dijo que sus agentes de IA podían usar computadoras como humanos para completar tareas complejas. La capacidad de uso de computadoras de Anthropic permite que su tecnología interprete lo que hay en la pantalla de una computadora, seleccione botones, ingrese texto, navegue por sitios web y ejecute tareas a través de cualquier software y navegación por Internet en tiempo real, dijo la startup.
La herramienta puede “usar computadoras básicamente de la misma manera que nosotros”, dijo a CNBC Jared Kaplan, director científico de Anthropic, en una entrevista en ese momento. Dijo que puede realizar tareas con “decenas o incluso cientos de pasos”.
OpenAI lanzó una herramienta similar la semana pasada, introduciendo una función llamada Operador que automatizará tareas como planificar vacaciones, completar formularios, hacer reservas en restaurantes y pedir alimentos.
El microsoft-La startup respaldada lo describe como “un agente que puede ir a la web para realizar tareas por usted” y agregó que está capacitado para interactuar con “los botones, menús y campos de texto que la gente usa a diario” en la web. También puede hacer preguntas de seguimiento para personalizar aún más las tareas que realiza, como información de inicio de sesión para otros sitios web. Los usuarios pueden tomar el control de la pantalla en cualquier momento.
Noticias
Esto es lo que debes saber: NBC 6 South Florida
- El zumbido alrededor de la startup de IA China Deepseek comenzó a recoger a Steam a principios de este mes, cuando la startup lanzó R1, su modelo de razonamiento que rivaliza con el O1 de Openai.
- El lunes, Deepseek se hizo cargo del lugar codiciado de su rival Openai para la aplicación gratuita más descargada en los EE. UU. En la App Store de Apple, destronando a Chatgpt para el asistente de IA de Deepseek.
- Global Tech Stocks se vendió, con el gigante de chip de IA Nvidia cayendo un 10%.
El lunes, la startup de inteligencia artificial china Deepseek se hizo cargo del lugar codiciado de su rival Openai como la aplicación gratuita más desactivada en los EE. UU. En la tienda de aplicaciones de Apple, destronando Chatgpt para el asistente de IA de Deepseek. Las acciones de Global Tech se vendieron y estaban en camino de acabar con miles de millones en el límite de mercado.
Los líderes tecnológicos, analistas, inversores y desarrolladores dicen que el bombo, y el consiguiente temor de quedarse atrás en el ciclo de bombo de IA en constante cambio, pueden estar justificados. Especialmente en la era de la carrera armamentista generativa de IA, donde los gigantes tecnológicos y las startups están corriendo para garantizar que no se queden atrás en un mercado previsto para superar los ingresos de $ 1 billón en una década.
¿Qué es Deepseek?
Deepseek fue fundada en 2023 por Liang Wenfeng, cofundador de High-Flyer, un fondo cuantitativo de cobertura centrado en la IA. Según los informes, la startup de IA surgió de la Unidad de Investigación de AI del fondo de cobertura en abril de 2023 para centrarse en modelos de idiomas grandes y alcanzar la inteligencia general artificial, o AGI, una rama de IA que iguala o supere el intelecto humano en una amplia gama de tareas, que se abren. Y sus rivales dicen que están persiguiendo rápidamente. Deepseek sigue siendo propiedad y financiado por High-Flyer, según analistas de Jefferies.
El zumbido alrededor de Deepseek comenzó a recoger a Steam a principios de este mes, cuando la startup lanzó R1, su modelo de razonamiento que rivaliza con el O1 de OpenAI. Es de código abierto, lo que significa que cualquier desarrollador de IA puede usarlo, y se ha disparado a la cima de las tiendas de aplicaciones y las tablas de clasificación de la industria, con los usuarios elogios de su rendimiento y capacidades de razonamiento.
Al igual que otros chatbots chinos, tiene sus limitaciones cuando se les pregunta sobre ciertos temas: cuando se le pregunta sobre algunas de las políticas del líder chino Xi Jinping, por ejemplo, Deepseek aleja al usuario de líneas similares de preguntas.
Otra parte clave de la discusión: R1 de Deepseek se construyó a pesar de las exportaciones de chips de EE. UU. A China tres veces en tres años. Las estimaciones difieren exactamente en la cantidad de R1 de Deepseek, o en cuántas GPU entró. Los analistas de Jefferies estimaron que una versión reciente tenía un “costo de capacitación de solo US $ 5,6 millones (suponiendo un costo de alquiler de US $ 2/h800 horas). Eso es menos del 10% del costo de la LLAMA de Meta”. Pero independientemente de los números específicos, los informes acuerdan que el modelo se desarrolló a una fracción del costo de los modelos rivales por OpenAI, Anthrope, Google y otros.
Como resultado, el sector de la IA está inundado de preguntas, incluido si es necesario el creciente número de rondas de financiación astronómica y las valoraciones de mil millones de dólares, y si una burbuja está a punto de estallar.
Las acciones de NVIDIA cayeron un 11%, con el fabricante de chips ASML más del 6%. El NASDAQ cayó por 2%, y cuatro gigantes tecnológicos: Meta, Microsoft, Apple y ASML están listos para informar las ganancias esta semana.
Los analistas de Raymond James detallaron algunas de las preguntas que afectan a la industria de la IA este mes, escribiendo: “¿Cuáles son las implicaciones de inversión? ¿Qué dice sobre los modelos de origen abierto versus patentado? ¿Está arrojando dinero a las GPU realmente una panacea? trabajando? ¿Cuáles son las implicaciones más amplias de [DeepSeek]? Bueno, podrían ser terribles o un no evento, pero tengan la seguridad de que la industria está llena de incredulidad y especulación “.
Los analistas de Bernstein escribieron en una nota el lunes que “según las muchas tomas (ocasionalmente histéricas) que vimos que vimos [over the weekend,] El rango de implicaciones en cualquier lugar desde ‘eso es realmente interesante’ hasta ‘Esta es la luz de muerte del complejo de infraestructura de IA tal como lo conocemos’ “.
Cómo están respondiendo las empresas estadounidenses
Algunos CEO de tecnología estadounidense están trepando por responder antes de que los clientes cambien a ofertas potencialmente más baratas de Deepseek, y Según los informes, Meta inicia cuatro “salas de guerra” relacionadas con Deepseek dentro de su departamento generativo de IA.
El CEO de Microsoft, Satya Nadella, escribió en X que el fenómeno de Deepseek era solo un ejemplo de la paradoja de Jevons, escribiendo, “A medida que AI se vuelve más eficiente y accesible, veremos su uso Skyroocket, convirtiéndolo en una mercancía, simplemente no podemos obtener suficiente de.” El CEO de Operai, Sam Altman, tuiteó una cita que atribuyó a Napoleón, escribiendo: “Una revolución no se puede hacer ni detener.
Yann Lecun, el jefe científico de AI de Meta, escribió en LinkedIn que el éxito de Deepseek es indicativo de cambiar las mareas en el sector de IA para favorecer la tecnología de código abierto.
Lecun escribió que Deepseek se ha beneficiado de algunas de la propia tecnología de Meta, es decir, sus modelos de llama, y que la startup “se les ocurrió nuevas ideas y las construyó en la parte superior del trabajo de otras personas. Debido a que su trabajo es publicado y de código abierto, todos pueden Se beneficia de él.
Alexandr Wang, CEO de Scale AI, le dijo a CNBC la semana pasada que el último modelo de IA de Deepseek fue “devastador de la tierra” y que su lanzamiento de R1 es aún más poderoso.
“Lo que hemos encontrado es que Deepseek … es el mejor desempeño, o aproximadamente a la par con los mejores modelos estadounidenses”, dijo Wang, y agregó que la carrera de IA entre los Estados Unidos y China es una “guerra de IA”. La compañía de Wang proporciona datos de capacitación a jugadores clave de IA, incluidos OpenAI, Google y Meta.
A principios de esta semana, presidente Donald Trump anunció una empresa conjunta con OpenAI, Oracle y Softbank para invertir miles de millones de dólares en infraestructura de IA de EE. UU. El proyecto, Stargate, fue presentado en la Casa Blanca por Trump, el CEO de SoftBank, Masayoshi,, cofundador Larry Ellison, y el CEO de Operai, Sam Altman. Los socios de tecnología iniciales clave incluirán Microsoft, Nvidia y Oracle, así como el brazo de la compañía de semiconductores. Dijeron que invertirían $ 100 mil millones para comenzar y hasta $ 500 mil millones en los próximos cuatro años.
AI evolucionando
La noticia de la destreza de Deepseek también se produce en medio de la creciente exageración en torno a los agentes de IA, modelos que van más allá de los chatbots para completar tareas complejas de varios pasos para un usuario, que los gigantes tecnológicos y las startups están persiguiendo. Meta, Google, Amazon, Microsoft, Openai y Anthrope han expresado su objetivo de construir IA de agente.
Anthrope, la startup de IA respaldada por Amazon fundada por ex ejecutivos de investigación de Openai, aumentó su desarrollo de tecnología durante el año pasado, y en octubre, la startup dijo que sus agentes de IA pudieron usar computadoras como humanos para completar tareas complejas. La capacidad de uso de la computadora de Anthrope permite que su tecnología interprete lo que está en la pantalla de una computadora, seleccione botones, ingrese texto, navegue por los sitios web y ejecute tareas a través de cualquier software y navegación en Internet en tiempo real, dijo la startup.
La herramienta puede “usar computadoras básicamente de la misma manera que lo hacemos”, dijo Jared Kaplan, director científico de Anthrope, a CNBC en una entrevista en ese momento. Dijo que puede hacer tareas con “decenas o incluso cientos de pasos”.
Openai lanzó una herramienta similar la semana pasada, presentando una característica llamada operador que automatizará tareas como planificar vacaciones, completar formularios, hacer reservas de restaurantes y ordenar comestibles.
La startup respaldada por Microsoft lo describe como “un agente que puede ir a la web para realizar tareas para usted”, y agregó que está capacitado para interactuar con “los botones, los menús y los campos de texto que las personas usan a diario” en la web . También puede hacer preguntas de seguimiento para personalizar aún más las tareas que completa, como la información de inicio de sesión para otros sitios web. Los usuarios pueden tomar el control de la pantalla en cualquier momento.
Noticias
¿Por qué DeepSeek AI de repente es tan popular?
OpenAI lanzó su agente Operador AI para ChatGPT el jueves, lo que debería haber sido un hito importante para la empresa y el desarrollo de la IA en general. Si bien no pagaría $200 al mes para probar esta versión inicial de Operador, lo que vi en las demostraciones de OpenAI me dejó alucinado. El operador está muy por delante de los agentes de inteligencia artificial de Google, al menos en lo que respecta a demostraciones. No puedo esperar a tenerlo en mis manos una vez que OpenAI lo lleve a otros niveles pagos de ChatGPT y, lo que es más importante para mí personalmente, a la UE.
Sin embargo, la verdadera historia de la IA que se está apoderando del mundo no es ChatGPT, Operador o el enorme proyecto Stargate que se anunció la semana pasada. La historia de DeepSeek AI se apoderó del mundo cuando la startup china lanzó su modelo de razonamiento R1 que puede igualar el ChatGPT o1 de OpenAI.
No hay nada sorprendente en eso; Esperamos que otras empresas de IA igualen o1. Después de todo, OpenAI ya presentó o3, que debería anunciarse en unos días o semanas. Lo inusual de DeepSeek es que la empresa china hizo que sus modelos fueran de código abierto, por lo que cualquier empresa o desarrollador puede acceder a ellos e inspeccionarlos. Más interesante es el artículo de investigación sobre R1 que publicó DeepSeek, que afirma que el modelo altamente sofisticado fue entrenado a una fracción del costo del o1 de OpenAI.
La noticia de que el entrenamiento de DeepSeek R1 es posible con solo del 3% al 5% de los recursos que OpenAI necesita para un progreso similar con ChatGPT causó sensación en todo el mundo. Las acciones relacionadas con la IA se desplomaron durante las primeras operaciones del lunes, justo cuando DeepSeek saltó hasta convertirse en el número uno en la App Store, superando a ChatGPT.
Uno de los problemas del software de IA actual tiene que ver con el coste de desarrollo y uso del producto. Desarrollar modelos avanzados como o1 puede costar decenas de millones. El proceso requiere tarjetas gráficas (GPU) de alta gama que proporcionen la potencia informática y el gasto de energía necesarios.
Es por eso que los productos terminados como ChatGPT o1 no pueden estar disponibles de forma gratuita y sin limitaciones. Empresas como OpenAI necesitan cubrir costos y obtener ganancias. Es por eso que el enorme programa Stargate de 500 mil millones de dólares es una decisión tan monumental para el desarrollo de la IA, especialmente considerando la inevitable carrera armamentista de IA entre Estados Unidos y China.
Agregue las sanciones de EE. UU. que impiden que China acceda a los mismos chips y GPU de alta gama que hacen posible el desarrollo de productos ChatGPT o1, y uno pensaría que ChatGPT, Gemini, Meta AI y Claude no pueden obtener una competencia significativa de China.
Ahí es donde DeepSeek sorprendió al mundo. La startup china sabía que no podía competir contra OpenAI basándose en la potencia bruta. No podría tener acceso a la misma cantidad de GPU que acaparan empresas como OpenAI. Entonces, los investigadores de DeepSeek adoptaron otro enfoque para R1 y encontraron formas de entrenar un modelo de razonamiento avanzado sin acceso al mismo hardware.
No es sólo eso, sino que DeepSeek hizo que el acceso a R1 fuera mucho más barato que ChatGPT de OpenAI, lo cual es un avance significativo. Agregue la naturaleza de código abierto de los modelos DeepSeek y podrá ver por qué los desarrolladores acudirían en masa para probar la IA de la empresa china y por qué DeepSeek surgiría en la App Store.
Según la investigación, la startup china reemplazó la tecnología Supervised Fine-Tuning (SFT) que OpenAI utiliza para entrenar ChatGPT con Reinforcement Learning (RL) para producir resultados más rápidos y económicos. SFT se basa en mostrarle a la IA formas de resolver problemas brindando acceso a los datos para que la IA sepa qué tipo de respuestas brindar a varias indicaciones.
RL se basa en el modelo de IA, intenta descubrir las respuestas con un sistema de recompensa implementado y luego proporciona retroalimentación a la IA. RL permitió a DeepSeek mejorar las capacidades de razonamiento de R1 y superar la falta de computación. Sin embargo, como VentureBeat explica, se necesitaba algo de entrenamiento SFT, donde los humanos supervisan la IA, en las primeras fases de R1 antes de cambiar a RL.
Si bien señalé los inconvenientes obvios de depender de un rival de ChatGPT de China en este momento, no hay duda de que DeepSeek merece atención.
Como mínimo, las innovaciones que desarrollaron los investigadores de DeepSeek se pueden copiar en otros lugares para lograr avances similares. Después de todo, las primeras versiones de DeepSeek mostraron que la startup china podría haber copiado el trabajo de desarrollo de ChatGPT. Ya sea IA u otra cosa, las innovaciones tecnológicas siempre serán robadas y adaptadas.
Piénselo: a DeepSeek se le ocurrió una forma más eficiente de entrenar la IA utilizando solo unas 50.000 GPU, 10.000 de las cuales eran GPU NVIDIA compradas antes de las restricciones a las exportaciones de EE. UU. Comparativamente, empresas como OpenAI, Google y Anthropic operan con más de 500.000 GPU cada una, por VentureBeat.
Me imagino que los investigadores de estas empresas ahora están compitiendo para ver cómo y si pueden replicar el éxito de DeepSeek R1. También me imagino que encontrarán formas de hacerlo.
Con tanta computación y recursos a disposición de OpenAI, Google, Meta y Anthropic, pronto serán posibles avances similares a R1 además de lo que ya está disponible en los modelos de IA.
Además, si bien el mercado se vio afectado por las noticias sobre la IA de DeepSeek en China, no creo que el hardware, la potencia informática y la energía no importen en el futuro del desarrollo de la IA. Nuevamente, combine las innovaciones de DeepSeek con, digamos, un fondo de 500 mil millones de dólares y acceso a tarjetas gráficas de alta tecnología NVIDIA, y podría obtener las primeras fases de AGI.
Una vez que se empleen métodos similares a DeepSeek R1 para el desarrollo de ChatGPT y Gemini, los costos del acceso avanzado a la IA probablemente disminuirán para los usuarios premium. Esta sería una victoria clave para los consumidores.
Las empresas occidentales de IA no podrán mantener los costos altos y competir con DeepSeek R1 y sus sucesores. Algunos desarrolladores siempre elegirán los modelos más baratos a pesar del país de origen de la IA y el sesgo de entrenamiento. Como recordatorio, los modelos de DeepSeek mostrarán un sesgo hacia China. Este sigue siendo un software que debe cumplir con las leyes de censura locales.
Señalaré que China no se quedará de brazos cruzados. Estas son victorias tempranas. DeepSeek no está solo, ya que ByteDance también lanzó un chatbot de primer nivel. Se invertirán miles de millones de dólares en el desarrollo de la IA en el país para computación y energía. Recuerde, no todo lo que viene de China puede tomarse al pie de la letra. No está claro si los costos de entrenar DeepSeek son reales. La transparencia sólo funciona hasta cierto punto.
Afortunadamente, debido a que DeepSeek es de código abierto, otros pronto podrán ver si el entrenamiento similar al R1 se puede realizar con éxito en otros lugares.
VentureBeat hace un gran trabajo explicando las complejidades del desarrollo de DeepSeek R1 en este enlace. El documento técnico de DeepSeek que acompaña al lanzamiento de R1 el lunes se puede encontrar en GitHub.
-
Startups8 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos9 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Recursos9 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Recursos8 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Tutoriales9 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Startups7 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Estudiar IA8 meses ago
Curso de Inteligencia Artificial de UC Berkeley estratégico para negocios
-
Noticias7 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo