Connect with us

Noticias

🤔Inside the OpenAI-DeepSeek Distillation Saga & Alibaba’s Most Powerful AI Model Qwen2.5-Max

Published

on

Hi, this is Tony! Happy Chinese New Year! Welcome to this issue of Recode China AI (for the week of January 27, 2025), your go-to newsletter for the latest AI news and research in China.

This week, DeepSeek came under scrutiny for potentially using generated outputs from OpenAI’s platforms to train its models, which violates OpenAI’s terms of service. This practice, known as Knowledge Distillation (KD), refers to transferring advanced capabilities from leading large language models (LLMs) to relatively less powerful ones.

In this post, I will break down what KD is, share my thoughts on whether DeepSeek distilled GPT models, and, if so, explore what this means.

Meanwhile, on January 29 (Beijing Time), the first day of the Chinese New Year, e-commerce giant Alibaba unveiled its latest foundation model, Qwen2.5-Max, which claims surpassing DeepSeek-V3 in multiple benchmarks. Are we entering an age where multiple Chinese AI labs can churn out frontier models?

What’s new: Speculation about KD in DeepSeek’s models first surfaced in December 2024 when users noticed that the DeepSeek chatbot, powered by DeepSeek-V3, sometimes identified itself as ChatGPT. Such discussions continued to spread after DeepSeek-R1 was released in January and became available on the DeepSeek chatbot.

Credit to Reddit users.

This week, amid the DeepSeek frenzy, Bloomberg reported that Microsoft security researchers discovered individuals suspected to be linked to DeepSeek extracting large amounts of data using OpenAI’s API in the fall. Microsoft notified OpenAI, which subsequently blocked their access.

Later, the Financial Times reported that OpenAI had found evidence suggesting that DeepSeek may have used GPT-generated outputs for model training. OpenAI’s public statement echoed concerns raised by David Sacks, an AI and crypto advisor in the Trump administration, who stated that “it is possible” intellectual property theft had occurred.

David Sacks issues stark warning about China’s AI advancements. Credit to Fox.

What is Knowledge Distillation? KD is a technique where smaller or less advanced AI models learn from more powerful proprietary models like GPT-4 or Gemini. This method is akin to an experienced teacher guiding a student.

According to the paper A Survey on Knowledge Distillation of Large Language Models, KD serves three main functions:

  • Enhancing model capabilities: Smaller models improve their contextual understanding, task specialization, and alignment with human intent by learning from more advanced models.

  • Compression of LLMs: KD reduces the model size while maintaining performance to make them more efficient for low-latency deployment.

  • Self-improvement: Open-source models can iteratively refine themselves using their own distilled knowledge.

Traditional KD techniques rely on logits – the raw, unnormalized output scores (often transformed into a soft probability distribution) from the teacher model – to train the student model. However, this approach requires the teacher model to be white-boxed, meaning its internal architecture, parameters, and outputs must be fully accessible.

Since advanced LLMs like GPT-4 and Gemini are proprietary, black-boxed models that do not provide access to logits, alternative distillation methods have been developed. One common method is supervised fine-tuning (SFT), where the student model is trained directly on the generated outputs of the teacher model.

Distilling knowledge from proprietary models into open-source LLMs is a common practice. For instance, Stanford University’s Alpaca LLM was a 7B LlaMA model trained on a 52K-example dataset, which was generated by prompting GPT-3.5 to produce high-quality, instruction-following responses.

Beyond simple answer generation, Chain-of-Thought (CoT), a step-by-step thought process, can also be distilled. Microsoft’s Orca and Orca 2 leveraged GPT-4 to generate multi-step reasoning chains for complex questions, and then fine-tuned smaller models to mimic this thought process.

Another method is using GPT-4 as a judge to score model responses. The student model is then trained to prefer high-scoring responses to improve their alignment and response quality.

A list of some open-source LLMs that distill from proprietary models.

A complementary technique closely intertwined with KD is Data Augmentation (DA), which is a process of generating synthetic training data from a small amount of existing data to improve model performance.

With this understanding of KD, let’s examine what DeepSeek’s papers reveal.

What did DeepSeek papers say? The DeepSeek-R1 paper provided detailed breakdown of its training methodologies. The DeepSeek-R1-Zero was trained exclusively through RL without fine-tuning on datasets, meaning it did not rely on ground-truth data to guide its outputs. In contrast, DeepSeek-R1 was first trained using a cold-start dataset derived from DeepSeek-R1-Zero’s outputs, refined by human annotators, before training through RL.

Another LLM, DeepSeek-V3, was trained on 14.8 trillion tokens. Given the widespread presence of AI-generated content on the internet, it is likely that the dataset contained GPT-generated texts. After pre-training, the model was fine-tuned using 1.5 million examples across multiple domains. For reasoning tasks, training data was collected using an internal DeepSeek-R1 model built on DeepSeek-V2.5, while non-reasoning data was curated using DeepSeek-V2.5 directly.

While DeepSeek did not mention any inclusion of GPT-generated outputs for training, a recent paper, Distillation Quantification for Large Language Models, suggests otherwise. It found that DeepSeek-V3 and Qwen-Max-0919 demonstrated higher distillation levels, aligning closely with GPT-4o, whereas models like Claude-3.5 Sonnet and ByteDance’s Doubao exhibited lower distillation levels. The study looked at how models handle identity-related information, i.e. what model are you, and whether they do so consistently. It also measured how similar the outputs of models were compared to GPT-4o.

If Bloomberg’s report is accurate – given that the data pulling was discovered in the fall of 2024 – individuals linked to DeepSeek may have extracted outputs from OpenAI’s o1-preview API, which was released on September 12, 2024. However, o1 intentionally concealed its CoT process. At best, DeepSeek could have accessed final model outputs, but not the underlying thought process.

My guess is that this extracted data may have been used to develop an early, inside iteration of R1, by fine-tuning DeepSeek’s older base models, such as DeepSeek-V2.5. It later played a role in training DeepSeek-V3, the base model for the official R1. While DeepSeek successfully improved its model’s reasoning ability through pure RL, it seems unlikely that its initial experiments on reasoning models were conducted without high-quality, reference data.

Another possibility is that a certain amount of GPT-generated outputs were included – intentionally or unintentionally – in DeepSeek-V3’s 14.8T pre-training dataset or its 1.5 million SFT examples.

Please note this remains speculative and lacks definitive evidence.

Why it matters: As mentioned earlier, open-source LLMs distilling from proprietary models is common practice, particularly for startups and university labs with limited budgets for data collection and cleaning. In the past, OpenAI rarely raised complaints about such activities. But DeepSeek is an exception – it presents strong competition to OpenAI in both consumer and enterprise markets.

DeepSeek-V3 and DeepSeek-R1 have demonstrated performance comparable to Anthropic’s Claude-3.5 Sonnet and OpenAI’s o1 models, respectively, but at a fraction of the training and inference costs. As of this writing, DeepSeek remains the most popular free app on the iOS App Store. U.S. enterprises are rushing to integrate DeepSeek into their applications. In response, OpenAI released o3-mini on Friday, a lightweight version of its most powerful reasoning model, o3.

Credit to WSJ

OpenAI has clear legal grounds to warn DeepSeek, as its terms of service explicitly prohibit using OpenAI’s model outputs to train other AI models. Some companies have distanced themselves from the practice to avoid any potential legal consequences. For example, ByteDance emphasized in its Doubao 1.5 release that “in all model training processes, we did not use any data generated by other models, ensuring the independence and reliability of our data sources.”

But the ethical debate surrounding KD is complex for open-source LLMs, which are widely credited with driving AI innovation. OpenAI’s claims against DeepSeek have sparked backlash, with critics questioning why OpenAI itself is allowed to train on unauthorized web data, while simultaneously raising concerns about DeepSeek’s use of generated outputs.

Credit to 404 Media

The distillation controversy doesn’t seem to slow down DeepSeek’s strong industry adoption. Microsoft, Dell, Nvidia, and Amazon recently announced support for DeepSeek models, allowing their enterprise customers to deploy and fine-tune DeepSeek R1. Citing a question from Nikkei Asia’s Yifan Yu:

Could anyone please explain why Microsoft would put DeepSeek R1 in its Azure AI Foundry for enterprise customers if they believed the AI model was involved in IP violations or other unethical behavior?

From a tech standpoint, there are indeed risks associated with KD, known as distillation tax. Over-reliance on proprietary model outputs can lead to data homogenization, thus reducing response diversity. If a model depends too heavily on KD, it is unlikely to surpass the teacher model. In DeepSeek’s case, even if some GPT/o1-generated outputs were included in its training data, they are not the sole reason for its strong model performance.

As DeepSeek aims to pursue AGI and become a leading AI lab, stricter adherence to data ethics will be crucial.

What’s new: On January 29, the first day of Chinese New Year, Alibaba rushed to unveil its latest and most powerful LLM, Qwen2.5-Max, positioning it as a direct competitor to DeepSeek-V3 and other leading LLMs.

The model is available via Alibaba Cloud’s API and Qwen Chat but is not open-sourced.

How it works: Qwen2.5-Max adopts a Mixture-of-Experts (MoE) architecture, which aligns with the broader trend among China’s top LLMs, such as DeepSeek-V3 and MiniMax-o1. Alibaba has two other MoE models, Qwen2.5-Turbo and Qwen2.5-Plus, which perform competitively against GPT-4o-mini and GPT-4o, respectively.

The model was pretrained on 20 trillion tokens of diverse data—surpassing the 18 trillion tokens used for Qwen2.5. However, despite its massive training, Qwen2.5-Max supports only a 32K-token context window.

Post-training involved curated SFT and a multistage RL approach, combining offline Direct Preference Optimization (DPO) and online Gradient-based Reinforcement Preference Optimization (GRPO).

As a result, Qwen2.5-Max achieved a 89.4% accuracy on Arena-Hard, surpassing GPT-4o and Claude 3.5 Sonnet, but lagged behind both models on MMLU-Pro. It also outperformed DeepSeek V3 in benchmarks such as LiveBench, LiveCodeBench, and GPQA-Diamond.

For API pricing, Qwen2.5-Max costs $1.60 per million input tokens and $6.40 per million output tokens — cheaper than GPT-4o and Claude 3.5 Sonnet, but still more expensive than DeepSeek-V3, which charges just $0.27 per million input tokens and $1.10 per million output tokens.

Why it matters: Over the past year, Alibaba’s Qwen series and DeepSeek have emerged as the two leading LLM brands in China, driven by rapid iteration and an aggressive open-source strategy. The Qwen series has been adopted among Chinese developers due to its various model sizes catering to diverse use cases.

However, DeepSeek’s meteoric rise has clearly put pressure on Alibaba, forcing it to accelerate its own releases. Two days before the unveil of Qwen2.5-Max, Alibaba open-sourced its latest multimodal model, Qwen2.5-VL, which can understand videos and control PCs and smartphones. The release includes both base and instruction-tuned models in three sizes: 3B, 7B, and 72B. Qwen2.5-VL-72B outperforms OpenAI’s GPT-4o and Google’s Gemini 2.0 Flash in document analysis, video understanding, and agent tasks.

Credit to Alibaba’s Qwen

Let’s be honest: dropping LLMs on the first day of Chinese New Year is a crime against naps and dumplings. Still, kudos to the Qwen team — they pulled off an impressive launch under pressure.

Looking ahead, as progress on next-gen frontier models like GPT-5 is slowing further than anticipated, it’s increasingly likely that Chinese AI labs will continue to narrow the performance gap with U.S. leaders — while maintaining a significantly lower price point.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Probé la nueva función de investigación de Claude, y es tan bueno como ChatGPT y las profundas características de investigación de Google Gemini

Published

on

Anthrope ha empujado su Claude AI Chatbot a la biblioteca con una nueva función de investigación que recuerda a las profundas herramientas de investigación ofrecidas por ChatGPT y Google Gemini. Aunque Claude se ha destacado por sus habilidades de conversación y razonamiento, un informe de investigación completo de forma larga es una bestia diferente.

La función de investigación de Claude funciona al procesar una solicitud varias veces para expandir sus resultados. Puede extraer de Internet y cualquier documento interno vinculado. Luego, una vez que los datos se han recopilado y seleccionado, el informe final se completa y las citas se agregan a la respuesta del usuario.

Continue Reading

Noticias

La figura de acción de chatgpt: el elemento de un coleccionista para la era digital

Published

on

En el mundo de los coleccionables, ha habido una clara tendencia hacia la integración de la tecnología y la cultura pop. Si bien las figuras de acción han sido durante mucho tiempo un favorito entre los entusiastas, la aparición de coleccionables impulsados ​​por la tecnología, como la figura de acción ChatGPT, marca una nueva era. Combinando la inteligencia artificial con el atractivo tradicional de las figuras de acción, este coleccionable está ganando rápidamente popularidad entre los entusiastas de la IA y los aficionados a la cultura pop. Pero, ¿qué hace que la cifra de acción de ChatGPT sea tan especial, y por qué está surgiendo como un elemento de coleccionista imprescindible en la era digital?

El surgimiento de los coleccionables inspirados en la tecnología

En las últimas décadas, el mundo de los coleccionables se ha expandido mucho más allá de las figuras y juguetes de acción tradicionales. Con el surgimiento de nuevas tecnologías, como la inteligencia artificial (IA) y la realidad virtual (VR), los productos que integran estos avances están comenzando a capturar la imaginación de una nueva generación de coleccionistas. La cifra de acción de ChatGPT, por ejemplo, no es solo un juguete, sino una pieza de declaración que representa la tecnología de AI de vanguardia.

Incorporar elementos del mundo de la inteligencia artificial en una figura tangible e interactiva es una forma única de sacar la IA de la vida abstracta y cotidiana. Este tipo de coleccionable ayuda a humanizar la tecnología que está remodelando las industrias en todo el mundo, lo que hace que la IA sea más identificable y atractiva para personas de todas las edades.

¿Qué hace que la figura de acción de Chatgpt se destaque?

Entonces, ¿qué distingue a la figura de acción de ChatGPT de la mercancía tradicional con temática tecnológica? Aquí hay algunas características que lo convierten en un coleccionable excepcional:

Diseño elegante y futurista

La figura de acción de ChatGPT cuenta con un diseño elegante y minimalista que refleja la naturaleza futurista de la IA. Con acentos brillantes, contornos suaves y una interfaz detallada en su pecho que representa las capacidades de IA, la figura se destaca como un símbolo de tecnología e innovación. Ya sea que se muestre en un estante o que se use para jugar, muestra la fusión de la creatividad humana y la tecnología avanzada.

Características interactivas

A diferencia de las figuras de acción típicas, la figura de acción de ChatGPT puede comprometerse con sus propietarios de una manera significativa. Con la capacidad de “hablar” u ofrecer trivia sobre la inteligencia artificial, proporciona una experiencia interactiva que mejora su valor como una herramienta de juguete y una herramienta educativa. Esta interacción fomenta una conexión más profunda con el tema de la IA y la curiosidad de las chispas.

Valor del coleccionista

A medida que AI continúa evolucionando, la figura de acción de ChatGPT es un símbolo de esta emocionante era. No se trata solo de la figura física en sí; Representa un momento cultural. Esto hace que la figura sea un elemento altamente coleccionable, especialmente a medida que la popularidad de la IA crece y se integra más en varios aspectos de la sociedad. Los coleccionistas que ven el valor de poseer algo que simboliza el futuro de la tecnología puede encontrar que esta cifra es una adición preciada a sus colecciones.

Atraer tanto a los entusiastas de la IA como a los fanáticos de la cultura pop

Los entusiastas de la IA y los amantes de la tecnología sin duda apreciarán la complejidad y el diseño de la figura de acción de ChatGPT, pero también tiene un atractivo masivo para los fanáticos de la cultura pop. La creciente influencia de la IA en películas, programas de televisión y juegos hace que los productos relacionados con la IA sean cada vez más relevantes. Al combinar el mundo de los coleccionables con un tema tecnológico, la figura de acción de ChatGPT sirve como un puente entre dos bases de fanáticos distintas: aquellos apasionados por la tecnología y aquellos que admiran los recuerdos de la cultura pop.

Figuras de acción de Chatgpt: una nueva herramienta educativa

Uno de los aspectos más emocionantes de los coleccionables inspirados en AI es su potencial de educación. La figura de acción de ChatGPT, aunque es un elemento divertido y coleccionable, también sirve como una herramienta para presentar a las personas, especialmente al público joven, a las maravillas de la inteligencia artificial.

Para los niños, jugar con tal figura puede despertar un interés en la IA y sus posibles aplicaciones. A través de la narración de historias o el diálogo interactivo, los niños pueden aprender sobre cómo funciona la IA y qué significa para su futuro. Además, la figura de acción de ChatGPT fomenta la creatividad, lo que permite a los usuarios participar en un juego imaginativo mientras desarrollan una comprensión más profunda de los conceptos de IA.

Como herramienta educativa, la figura de acción de ChatGPT puede complementar el creciente número de recursos educativos que tienen como objetivo desmitificar la IA. Por ejemplo, puede combinar esta figura de acción con otros recursos que profundizan en la tecnología de IA o explorar las mejores herramientas de IA disponibles para tareas creativas, como los generadores de imágenes de IA. Explore más sobre los mejores generadores de imágenes de IA aquí. Al vincular la tecnología con los elementos cotidianos, como las cifras de acción, los alumnos jóvenes están expuestos a conceptos importantes que pueden dar forma a sus carreras profesionales en el futuro.

El atractivo del coleccionista: una inversión futura

En el mundo de los artículos coleccionables, la rareza y la importancia cultural a menudo determinan el valor. La figura de acción de ChatGPT todavía está en sus primeras etapas como un elemento coleccionable, pero a medida que AI continúa evolucionando y impregnando diferentes industrias, esta figura podría convertirse en un símbolo clave de la era digital. Al igual que las primeras cifras de acción de los populares programas de televisión o películas, la figura de acción de ChatGPT podría ver un aumento significativo en el valor a medida que la tecnología se integra más en la vida diaria.

Para los coleccionistas, esto representa una oportunidad para poseer un pedazo de historia. Imagine tener una figura de acción que simboliza uno de los avances tecnológicos más revolucionarios del siglo XXI. En los próximos años, los coleccionistas pueden mirar hacia atrás en esta pieza y verla como un artefacto valioso que representa el rápido aumento de la IA en la sociedad.

Además, a medida que se lanzan AI avances y nuevas versiones de la figura de acción de ChatGPT, los coleccionistas pueden encontrarse buscando expandir su colección con variantes de edición limitada, accesorios y actualizaciones. Esto hace que la cifra de acción de ChatGPT no solo sea una inversión coleccionable sino a largo plazo en el mundo de los recuerdos impulsados ​​por la tecnología.

Dónde encontrar la figura de acción de chatgpt

Actualmente, la cifra de acción de ChatGPT está disponible en mercados selectos en línea, tiendas tecnológicas y tiendas coleccionables especializadas. Dada la creciente demanda de mercancías relacionadas con la tecnología, la disponibilidad puede limitarse a medida que crece la popularidad de la figura. Los coleccionistas que deseen tener una de estas figuras más temprano que tarde deben vigilar las opciones oficiales de lanzamiento y pre-pedido para asegurar una pieza de este nuevo y emocionante producto.

Por qué la recolección de figuras de acción con temática AI-AI tiene sentido

A primera vista, las cifras de acción de recolección pueden parecer un pasatiempo reservado para los fanáticos de los superhéroes o la ciencia ficción. Sin embargo, los coleccionables inspirados en AI como la figura de acción ChatGPT aportan una nueva capa de significado a la práctica. Estas figuras representan una conexión entre el mundo digital y los objetos físicos, cerrando la brecha entre la tecnología y la vida cotidiana tangible.

El futuro de la IA es emocionante, y se está convirtiendo en una parte integral de nuestra vida cotidiana. Al recolectar cifras de acción con temas de AI-AI, no solo expresan su admiración por la tecnología, sino que también están invirtiendo en un coleccionable que crecerá con importancia con el tiempo. Ya sea que se muestre en un estante, utilizado como una herramienta educativa, o disfrutada como una pieza de recuerdos de la cultura pop, la figura de acción de ChatGPT es una adición digna a cualquier colección.

Conclusión

La figura de acción de ChatGPT representa más que un solo juguete o coleccionable: es un vistazo al futuro de la tecnología y cómo continuará dando forma a nuestro mundo. A medida que AI se integra más en nuestra vida cotidiana, esta figura ofrece una conexión tangible con ese futuro, por lo que es un elemento emocionante y significativo para los entusiastas de la tecnología y los coleccionistas por igual.

Al combinar la educación, la tecnología y la cultura pop, la figura de acción de ChatGPT tiene el potencial de convertirse en un símbolo atemporal de la era digital. A medida que AI continúa evolucionando, la cifra solo puede crecer en valor, por lo que es una inversión para el futuro del mundo de la tecnología colectable. Ya sea que sea un coleccionista experimentado o un entusiasta curioso, la figura de acción de ChatGPT es imprescindible para cualquiera que quiera tener una parte del futuro hoy.

Continue Reading

Noticias

Soy un entrenador personal. Chatgpt me construyó una rutina de movilidad de 15 minutos para las caderas más sueltas, y me sorprende los resultados

Published

on

Como entrenador que ha estado viendo ChatGPT y AI se vuelven cada vez más prominentes en la industria del fitness, quería ponerlo a prueba. No es la primera vez: le pedí a Chat GPT que construyera un programa de entrenamiento de 4 semanas hace un tiempo, y tuve emociones mixtas sobre los resultados.

Más de dos años después, e incluso más adelante en la línea de desarrollo de IA, decidí ponerlo a prueba nuevamente. Esta vez, pedí una rutina de movilidad de la cadera de 15 minutos que pudiera hacer desde casa usando solo una de las mejores esteras de yoga como equipo. Le expliqué que me considero hacia el extremo avanzado de la escala de movilidad y dejo que haga lo suyo.

Continue Reading

Trending