Connect with us

Noticias

🤔Inside the OpenAI-DeepSeek Distillation Saga & Alibaba’s Most Powerful AI Model Qwen2.5-Max

Published

on

Hi, this is Tony! Happy Chinese New Year! Welcome to this issue of Recode China AI (for the week of January 27, 2025), your go-to newsletter for the latest AI news and research in China.

This week, DeepSeek came under scrutiny for potentially using generated outputs from OpenAI’s platforms to train its models, which violates OpenAI’s terms of service. This practice, known as Knowledge Distillation (KD), refers to transferring advanced capabilities from leading large language models (LLMs) to relatively less powerful ones.

In this post, I will break down what KD is, share my thoughts on whether DeepSeek distilled GPT models, and, if so, explore what this means.

Meanwhile, on January 29 (Beijing Time), the first day of the Chinese New Year, e-commerce giant Alibaba unveiled its latest foundation model, Qwen2.5-Max, which claims surpassing DeepSeek-V3 in multiple benchmarks. Are we entering an age where multiple Chinese AI labs can churn out frontier models?

What’s new: Speculation about KD in DeepSeek’s models first surfaced in December 2024 when users noticed that the DeepSeek chatbot, powered by DeepSeek-V3, sometimes identified itself as ChatGPT. Such discussions continued to spread after DeepSeek-R1 was released in January and became available on the DeepSeek chatbot.

Credit to Reddit users.

This week, amid the DeepSeek frenzy, Bloomberg reported that Microsoft security researchers discovered individuals suspected to be linked to DeepSeek extracting large amounts of data using OpenAI’s API in the fall. Microsoft notified OpenAI, which subsequently blocked their access.

Later, the Financial Times reported that OpenAI had found evidence suggesting that DeepSeek may have used GPT-generated outputs for model training. OpenAI’s public statement echoed concerns raised by David Sacks, an AI and crypto advisor in the Trump administration, who stated that “it is possible” intellectual property theft had occurred.

David Sacks issues stark warning about China’s AI advancements. Credit to Fox.

What is Knowledge Distillation? KD is a technique where smaller or less advanced AI models learn from more powerful proprietary models like GPT-4 or Gemini. This method is akin to an experienced teacher guiding a student.

According to the paper A Survey on Knowledge Distillation of Large Language Models, KD serves three main functions:

  • Enhancing model capabilities: Smaller models improve their contextual understanding, task specialization, and alignment with human intent by learning from more advanced models.

  • Compression of LLMs: KD reduces the model size while maintaining performance to make them more efficient for low-latency deployment.

  • Self-improvement: Open-source models can iteratively refine themselves using their own distilled knowledge.

Traditional KD techniques rely on logits – the raw, unnormalized output scores (often transformed into a soft probability distribution) from the teacher model – to train the student model. However, this approach requires the teacher model to be white-boxed, meaning its internal architecture, parameters, and outputs must be fully accessible.

Since advanced LLMs like GPT-4 and Gemini are proprietary, black-boxed models that do not provide access to logits, alternative distillation methods have been developed. One common method is supervised fine-tuning (SFT), where the student model is trained directly on the generated outputs of the teacher model.

Distilling knowledge from proprietary models into open-source LLMs is a common practice. For instance, Stanford University’s Alpaca LLM was a 7B LlaMA model trained on a 52K-example dataset, which was generated by prompting GPT-3.5 to produce high-quality, instruction-following responses.

Beyond simple answer generation, Chain-of-Thought (CoT), a step-by-step thought process, can also be distilled. Microsoft’s Orca and Orca 2 leveraged GPT-4 to generate multi-step reasoning chains for complex questions, and then fine-tuned smaller models to mimic this thought process.

Another method is using GPT-4 as a judge to score model responses. The student model is then trained to prefer high-scoring responses to improve their alignment and response quality.

A list of some open-source LLMs that distill from proprietary models.

A complementary technique closely intertwined with KD is Data Augmentation (DA), which is a process of generating synthetic training data from a small amount of existing data to improve model performance.

With this understanding of KD, let’s examine what DeepSeek’s papers reveal.

What did DeepSeek papers say? The DeepSeek-R1 paper provided detailed breakdown of its training methodologies. The DeepSeek-R1-Zero was trained exclusively through RL without fine-tuning on datasets, meaning it did not rely on ground-truth data to guide its outputs. In contrast, DeepSeek-R1 was first trained using a cold-start dataset derived from DeepSeek-R1-Zero’s outputs, refined by human annotators, before training through RL.

Another LLM, DeepSeek-V3, was trained on 14.8 trillion tokens. Given the widespread presence of AI-generated content on the internet, it is likely that the dataset contained GPT-generated texts. After pre-training, the model was fine-tuned using 1.5 million examples across multiple domains. For reasoning tasks, training data was collected using an internal DeepSeek-R1 model built on DeepSeek-V2.5, while non-reasoning data was curated using DeepSeek-V2.5 directly.

While DeepSeek did not mention any inclusion of GPT-generated outputs for training, a recent paper, Distillation Quantification for Large Language Models, suggests otherwise. It found that DeepSeek-V3 and Qwen-Max-0919 demonstrated higher distillation levels, aligning closely with GPT-4o, whereas models like Claude-3.5 Sonnet and ByteDance’s Doubao exhibited lower distillation levels. The study looked at how models handle identity-related information, i.e. what model are you, and whether they do so consistently. It also measured how similar the outputs of models were compared to GPT-4o.

If Bloomberg’s report is accurate – given that the data pulling was discovered in the fall of 2024 – individuals linked to DeepSeek may have extracted outputs from OpenAI’s o1-preview API, which was released on September 12, 2024. However, o1 intentionally concealed its CoT process. At best, DeepSeek could have accessed final model outputs, but not the underlying thought process.

My guess is that this extracted data may have been used to develop an early, inside iteration of R1, by fine-tuning DeepSeek’s older base models, such as DeepSeek-V2.5. It later played a role in training DeepSeek-V3, the base model for the official R1. While DeepSeek successfully improved its model’s reasoning ability through pure RL, it seems unlikely that its initial experiments on reasoning models were conducted without high-quality, reference data.

Another possibility is that a certain amount of GPT-generated outputs were included – intentionally or unintentionally – in DeepSeek-V3’s 14.8T pre-training dataset or its 1.5 million SFT examples.

Please note this remains speculative and lacks definitive evidence.

Why it matters: As mentioned earlier, open-source LLMs distilling from proprietary models is common practice, particularly for startups and university labs with limited budgets for data collection and cleaning. In the past, OpenAI rarely raised complaints about such activities. But DeepSeek is an exception – it presents strong competition to OpenAI in both consumer and enterprise markets.

DeepSeek-V3 and DeepSeek-R1 have demonstrated performance comparable to Anthropic’s Claude-3.5 Sonnet and OpenAI’s o1 models, respectively, but at a fraction of the training and inference costs. As of this writing, DeepSeek remains the most popular free app on the iOS App Store. U.S. enterprises are rushing to integrate DeepSeek into their applications. In response, OpenAI released o3-mini on Friday, a lightweight version of its most powerful reasoning model, o3.

Credit to WSJ

OpenAI has clear legal grounds to warn DeepSeek, as its terms of service explicitly prohibit using OpenAI’s model outputs to train other AI models. Some companies have distanced themselves from the practice to avoid any potential legal consequences. For example, ByteDance emphasized in its Doubao 1.5 release that “in all model training processes, we did not use any data generated by other models, ensuring the independence and reliability of our data sources.”

But the ethical debate surrounding KD is complex for open-source LLMs, which are widely credited with driving AI innovation. OpenAI’s claims against DeepSeek have sparked backlash, with critics questioning why OpenAI itself is allowed to train on unauthorized web data, while simultaneously raising concerns about DeepSeek’s use of generated outputs.

Credit to 404 Media

The distillation controversy doesn’t seem to slow down DeepSeek’s strong industry adoption. Microsoft, Dell, Nvidia, and Amazon recently announced support for DeepSeek models, allowing their enterprise customers to deploy and fine-tune DeepSeek R1. Citing a question from Nikkei Asia’s Yifan Yu:

Could anyone please explain why Microsoft would put DeepSeek R1 in its Azure AI Foundry for enterprise customers if they believed the AI model was involved in IP violations or other unethical behavior?

From a tech standpoint, there are indeed risks associated with KD, known as distillation tax. Over-reliance on proprietary model outputs can lead to data homogenization, thus reducing response diversity. If a model depends too heavily on KD, it is unlikely to surpass the teacher model. In DeepSeek’s case, even if some GPT/o1-generated outputs were included in its training data, they are not the sole reason for its strong model performance.

As DeepSeek aims to pursue AGI and become a leading AI lab, stricter adherence to data ethics will be crucial.

What’s new: On January 29, the first day of Chinese New Year, Alibaba rushed to unveil its latest and most powerful LLM, Qwen2.5-Max, positioning it as a direct competitor to DeepSeek-V3 and other leading LLMs.

The model is available via Alibaba Cloud’s API and Qwen Chat but is not open-sourced.

How it works: Qwen2.5-Max adopts a Mixture-of-Experts (MoE) architecture, which aligns with the broader trend among China’s top LLMs, such as DeepSeek-V3 and MiniMax-o1. Alibaba has two other MoE models, Qwen2.5-Turbo and Qwen2.5-Plus, which perform competitively against GPT-4o-mini and GPT-4o, respectively.

The model was pretrained on 20 trillion tokens of diverse data—surpassing the 18 trillion tokens used for Qwen2.5. However, despite its massive training, Qwen2.5-Max supports only a 32K-token context window.

Post-training involved curated SFT and a multistage RL approach, combining offline Direct Preference Optimization (DPO) and online Gradient-based Reinforcement Preference Optimization (GRPO).

As a result, Qwen2.5-Max achieved a 89.4% accuracy on Arena-Hard, surpassing GPT-4o and Claude 3.5 Sonnet, but lagged behind both models on MMLU-Pro. It also outperformed DeepSeek V3 in benchmarks such as LiveBench, LiveCodeBench, and GPQA-Diamond.

For API pricing, Qwen2.5-Max costs $1.60 per million input tokens and $6.40 per million output tokens — cheaper than GPT-4o and Claude 3.5 Sonnet, but still more expensive than DeepSeek-V3, which charges just $0.27 per million input tokens and $1.10 per million output tokens.

Why it matters: Over the past year, Alibaba’s Qwen series and DeepSeek have emerged as the two leading LLM brands in China, driven by rapid iteration and an aggressive open-source strategy. The Qwen series has been adopted among Chinese developers due to its various model sizes catering to diverse use cases.

However, DeepSeek’s meteoric rise has clearly put pressure on Alibaba, forcing it to accelerate its own releases. Two days before the unveil of Qwen2.5-Max, Alibaba open-sourced its latest multimodal model, Qwen2.5-VL, which can understand videos and control PCs and smartphones. The release includes both base and instruction-tuned models in three sizes: 3B, 7B, and 72B. Qwen2.5-VL-72B outperforms OpenAI’s GPT-4o and Google’s Gemini 2.0 Flash in document analysis, video understanding, and agent tasks.

Credit to Alibaba’s Qwen

Let’s be honest: dropping LLMs on the first day of Chinese New Year is a crime against naps and dumplings. Still, kudos to the Qwen team — they pulled off an impressive launch under pressure.

Looking ahead, as progress on next-gen frontier models like GPT-5 is slowing further than anticipated, it’s increasingly likely that Chinese AI labs will continue to narrow the performance gap with U.S. leaders — while maintaining a significantly lower price point.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Los sitios falsos de chatgpt pueden poner en riesgo sus datos y dispositivos.

Published

on

Si busca “CHATGPT” en su navegador, es probable que se tope en sitios web que parecen estar alimentados por OpenAI, pero no lo son. Uno de esos sitios, chat.chatbotapp.ai, ofrece acceso a “GPT-3.5” de forma gratuita y utiliza marca familiar.

Pero aquí está la cosa: no está dirigida por OpenAi. Y, francamente, ¿por qué usar un GPT-3.5 potencialmente falso cuando puedes usar GPT-4O de forma gratuita en el actual ¿Sitio de chatgpt?

Continue Reading

Noticias

Vista previa de Google I/O 2025: Gemini AI, Android XR y todo lo demás para esperar

Published

on

Cuando el CEO de Google, Sundar Pichai, suba al escenario en la Conferencia de desarrolladores de Google I/O 2025 la próxima semana para entregar sus comentarios de apertura, espere que dos cartas dominen la discusión: la IA.

La inteligencia artificial se ocupa de gran parte del enfoque en Google en estos días, con características de IA que llegan a través de múltiples productos, proyectos centrados en la IA que capturan gran parte de la atención y predicciones del público sobre el futuro de la IA que asume muchos de los pronunciamientos públicos de la compañía.

Continue Reading

Noticias

AI generativa: todo para saber sobre la tecnología detrás de chatbots como chatgpt

Published

on

Ya sea que se dé cuenta o no, la inteligencia artificial está en todas partes. Se encuentra detrás de los chatbots con los que hablas en línea, las listas de reproducción que transmites y los anuncios personalizados que aparecen en tu desplazamiento. Y ahora está tomando una personalidad más pública. Piense en Meta AI, que ahora está integrado en aplicaciones como Facebook, Messenger y WhatsApp; o Géminis de Google, trabajando en segundo plano en las plataformas de la compañía; o Apple Intelligence, lanzando a través de iPhones ahora.

AI tiene una larga historia, volviendo a una conferencia en Dartmouth en 1956 que primero discutió la inteligencia artificial como una cosa. Los hitos en el camino incluyen Eliza, esencialmente el primer chatbot, desarrollado en 1964 por el informático del MIT Joseph Weizenbaum y, saltando 40 años, cuando la función de autocompleta de Google apareció por primera vez en 2004.

Luego llegó 2022 y el ascenso de Chatgpt a la fama. Los desarrollos generativos de IA y los lanzamientos de productos se han acelerado rápidamente desde entonces, incluidos Google Bard (ahora Gemini), Microsoft Copilot, IBM Watsonx.ai y los modelos de LLAMA de código abierto de Meta.

Desglosemos qué es la IA generativa, cómo difiere de la inteligencia artificial “regular” y si la Generación AI puede estar a la altura de las expectativas.

IA generativa en pocas palabras

En esencia, la IA generativa se refiere a sistemas de inteligencia artificial que están diseñados para producir un nuevo contenido basado en patrones y datos que han aprendido. En lugar de solo analizar números o predecir tendencias, estos sistemas generan salidas creativas como texto, música de imágenes, videos y código de software.

Algunas de las herramientas de IA generativas más populares en el mercado incluyen:

El principal entre sus habilidades, ChatGPT puede crear conversaciones o ensayos similares a los humanos basados ​​en algunas indicaciones simples. Dall-E y MidJourney crean obras de arte detalladas a partir de una breve descripción, mientras que Adobe Firefly se centra en la edición y el diseño de imágenes.

Imagen generada por chatgpt de una ardilla con ojos grandes sosteniendo una bellota

Chatgpt / captura de pantalla por cnet

Ai eso no es generativo

No toda la IA es generativa. Si bien Gen AI se enfoca en crear contenido nuevo, la IA tradicional se destaca por analizar datos y hacer predicciones. Esto incluye tecnologías como el reconocimiento de imágenes y el texto predictivo. También se usa para soluciones novedosas en:

  • Ciencia
  • Diagnóstico médico
  • Pronóstico del tiempo
  • Detección de fraude
  • Análisis financiero para pronósticos e informes

La IA que venció a los grandes campeones humanos en el ajedrez y el juego de mesa no fue una IA generativa.

Es posible que estos sistemas no sean tan llamativos como la Generación AI, pero la inteligencia artificial clásica es una gran parte de la tecnología en la que confiamos todos los días.

¿Cómo funciona Gen AI?

Detrás de la magia de la IA generativa hay modelos de idiomas grandes y técnicas avanzadas de aprendizaje automático. Estos sistemas están capacitados en grandes cantidades de datos, como bibliotecas completas de libros, millones de imágenes, años de música grabada y datos raspados de Internet.

Los desarrolladores de IA, desde gigantes tecnológicos hasta nuevas empresas, son conscientes de que la IA es tan buena como los datos que lo alimenta. Si se alimenta de datos de baja calidad, la IA puede producir resultados sesgados. Es algo con lo que incluso los jugadores más grandes en el campo, como Google, no han sido inmunes.

La IA aprende patrones, relaciones y estructuras dentro de estos datos durante el entrenamiento. Luego, cuando se le solicita, aplica ese conocimiento para generar algo nuevo. Por ejemplo, si le pide a una herramienta Gen AI que escriba un poema sobre el océano, no solo extrae versos preescritos de una base de datos. En cambio, está usando lo que aprendió sobre la poesía, los océanos y la estructura del lenguaje para crear una pieza completamente original.

Un poema de 12 líneas llamado The Ocean's Whisper

Chatgpt / captura de pantalla por cnet

Es impresionante, pero no es perfecto. A veces los resultados pueden sentirse un poco apagados. Tal vez la IA malinterpreta su solicitud, o se vuelve demasiado creativo de una manera que no esperaba. Puede proporcionar con confianza información completamente falsa, y depende de usted verificarla. Esas peculiaridades, a menudo llamadas alucinaciones, son parte de lo que hace que la IA generativa sea fascinante y frustrante.

Las capacidades generativas de IA están creciendo. Ahora puede comprender múltiples tipos de datos combinando tecnologías como el aprendizaje automático, el procesamiento del lenguaje natural y la visión por computadora. El resultado se llama IA multimodal que puede integrar alguna combinación de texto, imágenes, video y habla dentro de un solo marco, ofreciendo respuestas más contextualmente relevantes y precisas. El modo de voz avanzado de ChatGPT es un ejemplo, al igual que el proyecto Astra de Google.

Desafíos con IA generativa

No hay escasez de herramientas de IA generativas, cada una con su talento único. Estas herramientas han provocado la creatividad, pero también han planteado muchas preguntas además del sesgo y las alucinaciones, como, ¿quién posee los derechos del contenido generado por IA? O qué material es un juego justo o fuera de los límites para que las compañías de IA los usen para capacitar a sus modelos de idiomas; vea, por ejemplo, la demanda del New York Times contra Openai y Microsoft.

Otras preocupaciones, no son asuntos pequeños, implican privacidad, responsabilidad en la IA, los profundos profundos generados por IA y el desplazamiento laboral.

“Escribir, animación, fotografía, ilustración, diseño gráfico: las herramientas de IA ahora pueden manejar todo eso con una facilidad sorprendente. Pero eso no significa que estos roles desaparezcan. Simplemente puede significar que los creativos deberán mejorar y usar estas herramientas para amplificar su propio trabajo”, Fang Liu, profesor de la Universidad de Notre Dame Dame y Coeditor-Chief de las transacciones de ACM en las transacciones de Probabilista, contó el aprendizaje en el poderoso de la máquina probabilística, le dijo a Cetnet.

“También ofrece una forma para las personas que tal vez carecen de la habilidad, como alguien con una visión clara que no puede dibujar, pero que puede describirlo a través de un aviso. Así que no, no creo que interrumpa a la industria creativa. Con suerte, será una co-creación o un aumento, no un reemplazo”.

Otro problema es el impacto en el medio ambiente porque la capacitación de grandes modelos de IA utiliza mucha energía, lo que lleva a grandes huellas de carbono. El rápido ascenso de la Generación AI en los últimos años ha acelerado las preocupaciones sobre los riesgos de la IA en general. Los gobiernos están aumentando las regulaciones de IA para garantizar el desarrollo responsable y ético, especialmente la Ley de IA de la Unión Europea.

Recepción de IA generativa

Muchas personas han interactuado con los chatbots en el servicio al cliente o han utilizado asistentes virtuales como Siri, Alexa y Google Assistant, que ahora están en la cúspide de convertirse en Gen AI Power Tools. Todo eso, junto con las aplicaciones para ChatGPT, Claude y otras herramientas nuevas, es poner ai en sus manos. Y la reacción pública a la IA generativa se ha mezclado. Muchos usuarios disfrutan de la conveniencia y la creatividad que ofrece, especialmente para cosas como escribir ayuda, creación de imágenes, soporte de tareas y productividad.

Mientras tanto, en la encuesta global de IA 2024 de McKinsey, el 65% de los encuestados dijo que sus organizaciones usan regularmente IA generativa, casi el doble de la cifra reportada solo 10 meses antes. Industrias como la atención médica y las finanzas están utilizando Gen AI para racionalizar las operaciones comerciales y automatizar tareas mundanas.

Como se mencionó, existen preocupaciones obvias sobre la ética, la transparencia, la pérdida de empleos y el potencial del mal uso de los datos personales. Esas son las principales críticas detrás de la resistencia a aceptar la IA generativa.

Y las personas que usan herramientas de IA generativas también encontrarán que los resultados aún no son lo suficientemente buenos para el tiempo. A pesar de los avances tecnológicos, la mayoría de las personas pueden reconocer si el contenido se ha creado utilizando Gen AI, ya sean artículos, imágenes o música.

AI ha secuestrado ciertas frases que siempre he usado, por lo que debo autocorrectar mi escritura a menudo porque puede parecer una IA. Muchos artículos escritos por AI contienen frases como “en la era de”, o todo es un “testimonio de” o un “tapiz de”. La IA carece de la emoción y la experiencia que viene, bueno, ser una vida humana y viviente. Como explicó un artista en Quora, “lo que AI hace no es lo mismo que el arte que evoluciona de un pensamiento en un cerebro humano” y “no se crea a partir de la pasión que se encuentra en un corazón humano”.

AI generativa: vida cotidiana

La IA generativa no es solo para técnicos o personas creativas. Una vez que obtienes la habilidad de darle indicaciones, tiene el potencial de hacer gran parte del trabajo preliminar por ti en una variedad de tareas diarias.

Digamos que está planeando un viaje. En lugar de desplazarse por páginas de resultados de búsqueda, le pide a un chatbot que planifique su itinerario. En cuestión de segundos, tiene un plan detallado adaptado a sus preferencias. (Ese es el ideal. Por favor, verifique siempre sus recomendaciones).

Un propietario de una pequeña empresa que necesita una campaña de marketing pero que no tiene un equipo de diseño puede usar una IA generativa para crear imágenes llamativas e incluso pedirle que sugiera copia publicitaria.

Un itinerario de viaje para Nueva Orleans, creado por chatgpt

Chatgpt / captura de pantalla por cnet

Gen Ai está aquí para quedarse

No ha habido un avance tecnológico que haya causado tal boom desde Internet y, más tarde, el iPhone. A pesar de sus desafíos, la IA generativa es innegablemente transformadora. Está haciendo que la creatividad sea más accesible, ayudando a las empresas a racionalizar los flujos de trabajo e incluso inspirar formas completamente nuevas de pensar y resolver problemas.

Pero quizás lo más emocionante es su potencial, y estamos rascando la superficie de lo que estas herramientas pueden hacer.

Preguntas frecuentes

¿Cuál es un ejemplo de IA generativa?

ChatGPT es probablemente el ejemplo más popular de IA generativa. Le das un aviso y puede generar texto e imágenes; Código de escritura; Responder preguntas; resumir el texto; borrador de correos electrónicos; y mucho más.

¿Cuál es la diferencia entre la IA y la IA generativa?

La IA generativa crea contenido nuevo como texto, imágenes o música, mientras que la IA tradicional analiza los datos, reconoce patrones o imágenes y hace predicciones (por ejemplo, en medicina, ciencia y finanzas).

Continue Reading

Trending