Noticias

Inside the OpenAI-DeepSeek Distillation Saga & Alibaba’s Most Powerful AI Model Qwen2.5-Max

Published

3 meses ago

2 febrero, 2025

Hi, this is Tony! Happy Chinese New Year! Welcome to this issue of Recode China AI (for the week of January 27, 2025), your go-to newsletter for the latest AI news and research in China.

This week, DeepSeek came under scrutiny for potentially using generated outputs from OpenAI’s platforms to train its models, which violates OpenAI’s terms of service. This practice, known as Knowledge Distillation (KD), refers to transferring advanced capabilities from leading large language models (LLMs) to relatively less powerful ones.

In this post, I will break down what KD is, share my thoughts on whether DeepSeek distilled GPT models, and, if so, explore what this means.

Meanwhile, on January 29 (Beijing Time), the first day of the Chinese New Year, e-commerce giant Alibaba unveiled its latest foundation model, Qwen2.5-Max, which claims surpassing DeepSeek-V3 in multiple benchmarks. Are we entering an age where multiple Chinese AI labs can churn out frontier models?

What’s new: Speculation about KD in DeepSeek’s models first surfaced in December 2024 when users noticed that the DeepSeek chatbot, powered by DeepSeek-V3, sometimes identified itself as ChatGPT. Such discussions continued to spread after DeepSeek-R1 was released in January and became available on the DeepSeek chatbot.

This week, amid the DeepSeek frenzy, Bloomberg reported that Microsoft security researchers discovered individuals suspected to be linked to DeepSeek extracting large amounts of data using OpenAI’s API in the fall. Microsoft notified OpenAI, which subsequently blocked their access.

Later, the Financial Times reported that OpenAI had found evidence suggesting that DeepSeek may have used GPT-generated outputs for model training. OpenAI’s public statement echoed concerns raised by David Sacks, an AI and crypto advisor in the Trump administration, who stated that “it is possible” intellectual property theft had occurred.

David Sacks issues stark warning about China’s AI advancements. Credit to Fox.

What is Knowledge Distillation? KD is a technique where smaller or less advanced AI models learn from more powerful proprietary models like GPT-4 or Gemini. This method is akin to an experienced teacher guiding a student.

According to the paper A Survey on Knowledge Distillation of Large Language Models, KD serves three main functions:

Enhancing model capabilities: Smaller models improve their contextual understanding, task specialization, and alignment with human intent by learning from more advanced models.
Compression of LLMs: KD reduces the model size while maintaining performance to make them more efficient for low-latency deployment.
Self-improvement: Open-source models can iteratively refine themselves using their own distilled knowledge.

Traditional KD techniques rely on logits – the raw, unnormalized output scores (often transformed into a soft probability distribution) from the teacher model – to train the student model. However, this approach requires the teacher model to be white-boxed, meaning its internal architecture, parameters, and outputs must be fully accessible.

Since advanced LLMs like GPT-4 and Gemini are proprietary, black-boxed models that do not provide access to logits, alternative distillation methods have been developed. One common method is supervised fine-tuning (SFT), where the student model is trained directly on the generated outputs of the teacher model.

Distilling knowledge from proprietary models into open-source LLMs is a common practice. For instance, Stanford University’s Alpaca LLM was a 7B LlaMA model trained on a 52K-example dataset, which was generated by prompting GPT-3.5 to produce high-quality, instruction-following responses.

Beyond simple answer generation, Chain-of-Thought (CoT), a step-by-step thought process, can also be distilled. Microsoft’s Orca and Orca 2 leveraged GPT-4 to generate multi-step reasoning chains for complex questions, and then fine-tuned smaller models to mimic this thought process.

Another method is using GPT-4 as a judge to score model responses. The student model is then trained to prefer high-scoring responses to improve their alignment and response quality.

A list of some open-source LLMs that distill from proprietary models.

A complementary technique closely intertwined with KD is Data Augmentation (DA), which is a process of generating synthetic training data from a small amount of existing data to improve model performance.

With this understanding of KD, let’s examine what DeepSeek’s papers reveal.

What did DeepSeek papers say? The DeepSeek-R1 paper provided detailed breakdown of its training methodologies. The DeepSeek-R1-Zero was trained exclusively through RL without fine-tuning on datasets, meaning it did not rely on ground-truth data to guide its outputs. In contrast, DeepSeek-R1 was first trained using a cold-start dataset derived from DeepSeek-R1-Zero’s outputs, refined by human annotators, before training through RL.

Another LLM, DeepSeek-V3, was trained on 14.8 trillion tokens. Given the widespread presence of AI-generated content on the internet, it is likely that the dataset contained GPT-generated texts. After pre-training, the model was fine-tuned using 1.5 million examples across multiple domains. For reasoning tasks, training data was collected using an internal DeepSeek-R1 model built on DeepSeek-V2.5, while non-reasoning data was curated using DeepSeek-V2.5 directly.

While DeepSeek did not mention any inclusion of GPT-generated outputs for training, a recent paper, Distillation Quantification for Large Language Models, suggests otherwise. It found that DeepSeek-V3 and Qwen-Max-0919 demonstrated higher distillation levels, aligning closely with GPT-4o, whereas models like Claude-3.5 Sonnet and ByteDance’s Doubao exhibited lower distillation levels. The study looked at how models handle identity-related information, i.e. what model are you, and whether they do so consistently. It also measured how similar the outputs of models were compared to GPT-4o.

If Bloomberg’s report is accurate – given that the data pulling was discovered in the fall of 2024 – individuals linked to DeepSeek may have extracted outputs from OpenAI’s o1-preview API, which was released on September 12, 2024. However, o1 intentionally concealed its CoT process. At best, DeepSeek could have accessed final model outputs, but not the underlying thought process.

My guess is that this extracted data may have been used to develop an early, inside iteration of R1, by fine-tuning DeepSeek’s older base models, such as DeepSeek-V2.5. It later played a role in training DeepSeek-V3, the base model for the official R1. While DeepSeek successfully improved its model’s reasoning ability through pure RL, it seems unlikely that its initial experiments on reasoning models were conducted without high-quality, reference data.

Another possibility is that a certain amount of GPT-generated outputs were included – intentionally or unintentionally – in DeepSeek-V3’s 14.8T pre-training dataset or its 1.5 million SFT examples.

Please note this remains speculative and lacks definitive evidence.

Why it matters: As mentioned earlier, open-source LLMs distilling from proprietary models is common practice, particularly for startups and university labs with limited budgets for data collection and cleaning. In the past, OpenAI rarely raised complaints about such activities. But DeepSeek is an exception – it presents strong competition to OpenAI in both consumer and enterprise markets.

DeepSeek-V3 and DeepSeek-R1 have demonstrated performance comparable to Anthropic’s Claude-3.5 Sonnet and OpenAI’s o1 models, respectively, but at a fraction of the training and inference costs. As of this writing, DeepSeek remains the most popular free app on the iOS App Store. U.S. enterprises are rushing to integrate DeepSeek into their applications. In response, OpenAI released o3-mini on Friday, a lightweight version of its most powerful reasoning model, o3.

OpenAI has clear legal grounds to warn DeepSeek, as its terms of service explicitly prohibit using OpenAI’s model outputs to train other AI models. Some companies have distanced themselves from the practice to avoid any potential legal consequences. For example, ByteDance emphasized in its Doubao 1.5 release that “in all model training processes, we did not use any data generated by other models, ensuring the independence and reliability of our data sources.”

But the ethical debate surrounding KD is complex for open-source LLMs, which are widely credited with driving AI innovation. OpenAI’s claims against DeepSeek have sparked backlash, with critics questioning why OpenAI itself is allowed to train on unauthorized web data, while simultaneously raising concerns about DeepSeek’s use of generated outputs.

The distillation controversy doesn’t seem to slow down DeepSeek’s strong industry adoption. Microsoft, Dell, Nvidia, and Amazon recently announced support for DeepSeek models, allowing their enterprise customers to deploy and fine-tune DeepSeek R1. Citing a question from Nikkei Asia’s Yifan Yu:

Could anyone please explain why Microsoft would put DeepSeek R1 in its Azure AI Foundry for enterprise customers if they believed the AI model was involved in IP violations or other unethical behavior?

From a tech standpoint, there are indeed risks associated with KD, known as distillation tax. Over-reliance on proprietary model outputs can lead to data homogenization, thus reducing response diversity. If a model depends too heavily on KD, it is unlikely to surpass the teacher model. In DeepSeek’s case, even if some GPT/o1-generated outputs were included in its training data, they are not the sole reason for its strong model performance.

As DeepSeek aims to pursue AGI and become a leading AI lab, stricter adherence to data ethics will be crucial.

What’s new: On January 29, the first day of Chinese New Year, Alibaba rushed to unveil its latest and most powerful LLM, Qwen2.5-Max, positioning it as a direct competitor to DeepSeek-V3 and other leading LLMs.

The model is available via Alibaba Cloud’s API and Qwen Chat but is not open-sourced.

How it works: Qwen2.5-Max adopts a Mixture-of-Experts (MoE) architecture, which aligns with the broader trend among China’s top LLMs, such as DeepSeek-V3 and MiniMax-o1. Alibaba has two other MoE models, Qwen2.5-Turbo and Qwen2.5-Plus, which perform competitively against GPT-4o-mini and GPT-4o, respectively.

The model was pretrained on 20 trillion tokens of diverse data—surpassing the 18 trillion tokens used for Qwen2.5. However, despite its massive training, Qwen2.5-Max supports only a 32K-token context window.

Post-training involved curated SFT and a multistage RL approach, combining offline Direct Preference Optimization (DPO) and online Gradient-based Reinforcement Preference Optimization (GRPO).

As a result, Qwen2.5-Max achieved a 89.4% accuracy on Arena-Hard, surpassing GPT-4o and Claude 3.5 Sonnet, but lagged behind both models on MMLU-Pro. It also outperformed DeepSeek V3 in benchmarks such as LiveBench, LiveCodeBench, and GPQA-Diamond.

For API pricing, Qwen2.5-Max costs $1.60 per million input tokens and $6.40 per million output tokens — cheaper than GPT-4o and Claude 3.5 Sonnet, but still more expensive than DeepSeek-V3, which charges just $0.27 per million input tokens and $1.10 per million output tokens.

Why it matters: Over the past year, Alibaba’s Qwen series and DeepSeek have emerged as the two leading LLM brands in China, driven by rapid iteration and an aggressive open-source strategy. The Qwen series has been adopted among Chinese developers due to its various model sizes catering to diverse use cases.

However, DeepSeek’s meteoric rise has clearly put pressure on Alibaba, forcing it to accelerate its own releases. Two days before the unveil of Qwen2.5-Max, Alibaba open-sourced its latest multimodal model, Qwen2.5-VL, which can understand videos and control PCs and smartphones. The release includes both base and instruction-tuned models in three sizes: 3B, 7B, and 72B. Qwen2.5-VL-72B outperforms OpenAI’s GPT-4o and Google’s Gemini 2.0 Flash in document analysis, video understanding, and agent tasks.

Let’s be honest: dropping LLMs on the first day of Chinese New Year is a crime against naps and dumplings. Still, kudos to the Qwen team — they pulled off an impressive launch under pressure.

Looking ahead, as progress on next-gen frontier models like GPT-5 is slowing further than anticipated, it’s increasingly likely that Chinese AI labs will continue to narrow the performance gap with U.S. leaders — while maintaining a significantly lower price point.

Noticias

Cómo se compara la nueva búsqueda web de Claude Ai con Gemini y Chatgpt

Published

5 horas ago

9 mayo, 2025

Sergio Villanueva

Los bots de IA quieren ayudarlo con sus búsquedas en la web, así como con todo lo demás, y Claude es el último asistente de inteligencia artificial para obtener la capacidad de buscar información en línea, ya sea que sean los últimos titulares de noticias o los últimos precios de los dispositivos.

“Con la búsqueda web, Claude tiene acceso a los últimos eventos e información, lo que aumenta su precisión en las tareas que se benefician de los datos más recientes”, dice el desarrollador Anthrope. La función está disponible ahora en todos los planes pagados, y “llegará pronto” para los usuarios gratuitos.

Web Search es un tipo diferente de desafío para los modelos de IA, probando su capacidad de examinar y evaluar el contenido publicado en la web, en lugar de integrarse en sus datos de capacitación. Así es como se avanza Claude, y se compara con Google Gemini y Chatgpt.

Uso de la búsqueda web en Claude

Habilitar la función de búsqueda web.
Crédito: Lifehacker

Para dar acceso web a Claude, haga clic en el botón Sliders en el cuadro de solicitud y habilite el Búsqueda web Interruptor de palanca. El bot de AI se referirá a la web en general a medida que lo considera apropiado para su consulta, pero si desea asegurarse de que use información en línea como parte de su respuesta, incluya algo como “Buscar en la web” en su aviso.

Cuando se invoca una búsqueda en la web, Claude le notificará como parte de la respuesta, y generalmente tarda un poco más en regresar con una respuesta. Cuando aparece la respuesta, obtienes pequeños botones de citas al final de ciertas oraciones, para que sepa de dónde proviene la información. Haga clic en cualquier cita para saltar a ese sitio web en una nueva pestaña.

Puede ejecutar casi cualquier consulta que pueda escribir en Google, cubriendo todo, desde pronósticos meteorológicos y puntajes deportivos hasta inmersiones profundas en el historial de la música y ayudar a solucionar problemas de computadora. Como de costumbre, puede hacer un seguimiento con más preguntas sobre los resultados que Claude le ha dado.

Es fácil ver el potencial para que la IA voltee la forma en que buscamos en la web, en cómo ofrece una experiencia más natural y matizada que la lista estándar de enlaces en Google. Sin embargo, no está exento de problemas, no menos si estos bots de IA se pueden confiar y de dónde van a obtener su información si los seres humanos reales ya no tienen incentivos para publicar en la web.

Obtener la noticia del día

Elegir las noticias tecnológicas actuales.
Crédito: Lifehacker

Me encargué de que Claude me trajera los titulares de noticias tecnológicas del día, y de hecho realizó dos búsquedas web para asegurarse de que lo obtuviera todo. Leí las noticias de tecnología todos los días, y Claude hizo un buen trabajo, aquí: las historias eran en su mayoría nuevas, y en su mayoría relevantes, aunque los enlaces de citas tendían a ir a las páginas delanteras de los sitios de noticias, en lugar de artículos individuales.

Gemini estaba a la par de Claude, aunque logró vincularse a artículos específicos, no solo los centros de noticias. Casi cada resultado fue de los últimos días, tomado de una fuente de buena reputación, y relativamente significativa en el mundo de las noticias tecnológicas, aunque hubo algunas fallas: un nuevo teléfono Samsung en India, por ejemplo, que realmente no me importa.

A Chatgpt, y el Bot Operai fue probablemente el peor del lote cuando se trataba de devolver los resultados que me importaban de los sitios que son los más respetados en el espacio de noticias tecnológicas (aunque se podría argumentar que es una decisión subjetiva). Todavía estaba bien, pero preferí los resultados que obtuve de Claude y Gemini.

Cuando se le pidió que devolviera las últimas noticias de Lifehacker, Claude no pudo hacerlo, y ChatGPT acaba de enumerar los titulares de la página de inicio actual sin enlaces. Gemini en realidad me dio las últimas historias, completa con enlaces, así que funciona mejor aquí, aunque la mejor opción es probablemente solo para abrir Lifehacker en su navegador.

Verificación de hechos en línea

Claude sabe sus películas … o más bien, sabe consultar Wikipedia.
Crédito: Lifehacker

En la comprobación de hechos: probé a Claude con una pregunta de película a la que ya conozco la respuesta. ¿Cuántos Oscar fueron ganados por Uno voló sobre el nido del cuco? Obtuvo la respuesta correcta y el año correcto, y dio el contexto de que es solo la tercera película de la historia en obtener los cinco grandes premios de la Academia: Mejor director, Mejor Actor, Mejor Actriz, Mejor Película y el mejor guión adaptado (ver si puedes adivinar cuáles son las otras dos películas).

Gemini también obtuvo las respuestas y el contexto de la gran victoria. Sus fuentes cubrieron una variedad más amplia de sitios e incluso YouTube, mientras que Claude se pegó a Wikipedia y al sitio oficial de los Oscar. Dio una respuesta más corta y más breve que Claude, y no incluía información de antecedentes sobre tomas de taquilla.

¿Qué piensas hasta ahora?

En cuanto a CHATGPT, nuevamente logró armar una respuesta precisa, con el contexto útil sobre el éxito de los cinco grandes y las otras películas que han manejado la hazaña. Al igual que Claude, se pegó principalmente a Wikipedia, pero hizo algo que no Claude ni Gemini lo hicieron: incluía un video de YouTube de la presentación de Oscar mejor imagen.

Este tipo de búsquedas en la web no son particularmente exigentes. Las preguntas más complejas pueden plantear más problemas, especialmente si las respuestas no están disponibles y la IA se siente tentado a inventarlos. Intenté engañar a estos bots de IA para que pensara que Daniel Day-Lewis ganó dos Oscar al mejor actor en años consecutivos, pero los tres identificaron correctamente que esto nunca sucedió.

Claude no es muy útil para comprar en la web.
Crédito: Lifehacker

Las compras en línea podrían ser transformadas por AI. Si bien las personas reales siempre serán mejores que los bots para elegir las compras correctas, la IA puede raspar rápidamente y resumir las opiniones de los seres humanos reales y empaquetarlos en una interfaz limpia y amigable mientras toma un corte de las ventas. Es como tener un asistente inteligente con usted, sin necesidad de vadear a través de masas de información o resultados de búsqueda.

Le pedí a Claude que recomendara un regalo extravagante para mí, basado en deportes o películas, y buscó obedientemente páginas que enumeran los extravagantes deportes y regalos de películas. Le fue bien elegir algunas ideas, pero creo que esta es una consulta que podría haber corrido a través de Google sin preocuparme de la IA.

Géminis dio una respuesta más personalizada y de cambio. No proporcionó ningún enlace web en este caso, tal vez porque Google quiere mantenerlo en su principal motor de búsqueda para este tipo de consultas: a diferencia de Claude o ChatGPT, Google ya gana mucho dinero que los usuarios hacen clic en comprar enlaces de sus resultados de búsqueda de compras.

ChatGPT dio los resultados más útiles aquí, tal vez gracias a su reciente actualización de compras. Las fuentes que enumeró fueron similares a las que usaron Claude, pero proporcionó algunas selecciones superiores distintas, junto con precios y enlaces para comprarlos en la web. Más adelante, esta podría ser una de las formas en que Operai recupera parte de su dinero.

La búsqueda web claramente sigue siendo un trabajo en progreso para todas estas herramientas de IA. En algunos casos, funciona mejor que una búsqueda tradicional de Google, pero no siempre, y siempre existe el problema de cuán lejos puede confiar en estas respuestas seguras y pulidas sin verificar las fuentes originales de las que obtienen su información.

Divulgación: la empresa matriz de Lifehacker, Ziff Davis, presentó una demanda contra Operai en abril, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.

Noticias

¿Puede ChatGPT pasar la prueba de Turing? Lo que dice la investigación.

Published

9 horas ago

9 mayo, 2025

Sergio Villanueva

Los chatbots de inteligencia artificiales como ChatGPT se están volviendo mucho más inteligentes, mucho más naturales y mucho más … como humanos. Tiene sentido: los humanos son los que crean los modelos de idiomas grandes que sustentan los sistemas de chatbots de IA, después de todo. Pero a medida que estas herramientas mejoran en “razonamiento” e imitan el discurso humano, ¿son lo suficientemente inteligentes como para aprobar la prueba de Turing?

Durante décadas, la prueba de Turing se ha mantenido como un punto de referencia clave en la inteligencia de máquinas. Ahora, los investigadores en realidad están poniendo a prueba LLM como ChatGPT. Si ChatGPT puede pasar, el logro sería un hito importante en el desarrollo de IA.

Entonces, ¿puede ChatGPT pasar la prueba de Turing? Según algunos investigadores, sí. Sin embargo, los resultados no son completamente definitivos. La prueba de Turing no es un simple pase/falla, lo que significa que los resultados no son realmente en blanco y negro. Además, incluso si ChatGPT podría pasar la prueba de Turing, eso puede no decirnos realmente cuán “humano” es realmente un LLM.

Vamos a desglosarlo.

¿Cuál es la prueba de Turing?

El concepto de la prueba de Turing es realmente bastante simple.

La prueba fue originalmente propuesta por el matemático británico Alan Turing, el padre de la informática moderna y un héroe para los nerds de todo el mundo. En 1949 o 1950, propuso el juego de imitación, una prueba de inteligencia de máquinas que desde entonces ha sido nombrada por él. La prueba de Turing implica que un juez humano tenga una conversación con un humano y una máquina sin saber cuál es cuál (o quién es quién, si crees en AGI). Si el juez no puede decir cuál es la máquina y cuál es la humana, la máquina pasa la prueba de Turing. En un contexto de investigación, la prueba se realiza muchas veces con múltiples jueces.

Por supuesto, la prueba no puede determinar necesariamente si un modelo de lenguaje grande es realmente tan inteligente como un humano (o más inteligente), solo si es capaz de pasar por un humano.

¿Los LLM realmente piensan como nosotros?

Los modelos de lenguaje grande, por supuesto, no tienen cerebro, conciencia o modelo mundial. No son conscientes de su propia existencia. También carecen de opiniones o creencias verdaderas.

En cambio, los modelos de idiomas grandes se capacitan en conjuntos de datos masivos de información: libros, artículos de Internet, documentos, transcripciones. Cuando un usuario ingresa el texto, el modelo AI usa su “razonamiento” para determinar el significado y la intención más probables de la entrada. Luego, el modelo genera una respuesta.

En el nivel más básico, los LLM son motores de predicción de palabras. Utilizando sus vastas datos de entrenamiento, calculan las probabilidades para el primer “token” (generalmente una sola palabra) de la respuesta utilizando su vocabulario. Repiten este proceso hasta que se genera una respuesta completa. Esa es una simplificación excesiva, por supuesto, pero mantengámoslo simple: las LLM generan respuestas a la entrada en función de la probabilidad y las estadísticas. Entonces, la respuesta de un LLM se basa en las matemáticas, no en una comprensión real del mundo.

Velocidad de luz mashable

Entonces, no, LLM no en realidad pensar en cualquier sentido de la palabra.

¿Qué dicen los estudios sobre ChatGPT y la prueba de Turing?

Joseph Maldonado / Mashable Composite por Rene Ramos
Crédito: Mashable

Ha habido bastantes estudios para determinar si ChatGPT ha aprobado la prueba de Turing, y muchos de ellos han tenido hallazgos positivos. Es por eso que algunos informáticos argumentan que, sí, modelos de idiomas grandes como GPT-4 y GPT-4.5 ahora pueden pasar la famosa prueba de Turing.

La mayoría de las pruebas se centran en el modelo GPT-4 de Openai, el que usa la mayoría de los usuarios de ChatGPT. Usando ese modelo, un Estudio de UC San Diego descubrieron que en muchos casos, los jueces humanos no pudieron distinguir GPT-4 de un humano. En el estudio, se consideró que GPT-4 era un humano el 54% del tiempo. Sin embargo, esto aún se quedó atrás de los humanos reales, que se consideró humano el 67% del tiempo.

Luego, se lanzó GPT-4.5, y los investigadores de UC San Diego Realizó el estudio nuevamente. Esta vez, el modelo de lenguaje grande se identificó como humano el 73% del tiempo, superando a los humanos reales. La prueba también encontró que el Llama-3.1-405b de Meta Meta pudo aprobar la prueba.

Otros estudios fuera de UC San Diego también han dado calificaciones de aprobación de GPT. Un 2024 Estudio de la Universidad de Reading de GPT-4 El modelo había creado respuestas para evaluaciones para llevar a casa para cursos de pregrado. Los alumnos de prueba no se les informó sobre el experimento, y solo marcaron una de las 33 entradas. ChatGPT recibió calificaciones anteriores al promedio con las otras 32 entradas.

Entonces, ¿son estos estudios? definitivo? No exactamente. Algunos críticos (y hay muchos) dicen que estos estudios de investigación no son tan impresionantes como parecen. Es por eso que no estamos listos para decir definitivamente que ChatGPT pasa la prueba de Turing.

Podemos decir que si bien los LLM de generación anterior como GPT-4 a veces pasan la prueba de Turing, los grados de aprobación se están volviendo más comunes a medida que los LLM se avanzan más. Y a medida que salen modelos de vanguardia como GPT-4.5, nos dirigimos rápidamente hacia modelos que pueden pasar fácilmente la prueba de Turing cada vez.

Operai en sí ciertamente imagina un mundo en el que es imposible distinguir a los humanos de la IA. Es por eso que el CEO de Operai, Sam Altman, ha invertido en un proyecto de verificación humana con una máquina de escaneo de globo ocular llamada Orbe.

¿Qué dice Chatgpt en sí mismo?

Decidimos preguntarle a ChatGPT si podía pasar la prueba de Turing, y nos dijo que sí, con las mismas advertencias que ya hemos discutido. Cuando planteamos la pregunta, “¿Puede Chatgpt pasar la prueba de Turing?” al chatbot Ai (usando el modelo 4o), nos dijo: “Chatgpt poder Pase la prueba de Turing en algunos escenarios, pero no de manera confiable o universal. “El chatbot concluyó:” Podría pasar la prueba de Turing con un usuario promedio en condiciones casuales, pero un interrogador determinado y reflexivo casi siempre podría desenmascararla “.

Una captura de pantalla de ChatGPT que muestra la respuesta al mensaje 'puede chatgpt pasar la prueba turing'

Imagen generada por IA.
Crédito: OpenAI

Las limitaciones de la prueba de Turing

Algunos científicos informáticos ahora creen que la prueba de Turing está desactualizada, y que no es tan útil para juzgar modelos de idiomas grandes. Gary Marcus, psicólogo estadounidense, científico cognitivo, autor y pronóstico popular de IA, lo resumió mejor en una publicación de blog reciente, donde escribió: “Como yo (y muchos otros) he dicho por añosLa prueba de Turing es una prueba de credulidad humana, no una prueba de inteligencia “.

También vale la pena tener en cuenta que la prueba de Turing se trata más de la percepción de inteligencia en lugar de actual inteligencia. Esa es una distinción importante. Un modelo como ChatGPT 4O podría pasar simplemente imitando el discurso humano. No solo eso, sino si un modelo de idioma grande pasa o no la prueba variará según el tema y el probador. ChatGPT podría simular fácilmente una pequeña charla, pero podría tener dificultades con las conversaciones que requieren una verdadera inteligencia emocional. No solo eso, sino que los sistemas de IA modernos se usan para mucho más que chatear, especialmente cuando nos dirigimos hacia un mundo de IA agente.

Nada de eso es decir que la prueba de Turing es irrelevante. Es un punto de referencia histórico ordenado, y ciertamente es interesante que los modelos de idiomas grandes puedan pasarlo. Pero la prueba de Turing no es el punto de referencia estándar de oro de la inteligencia de la máquina. ¿Cómo sería un mejor punto de referencia? Esa es otra lata de gusanos que tendremos que ahorrar para otra historia.

Divulgación: Ziff Davis, empresa matriz de Mashable, presentó en abril una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.

Temas
Inteligencia artificial

Noticias

Openai, Microsoft le dice al Senado ‘Nadie puede ganar AI’

Published

9 horas ago

9 mayo, 2025

Sergio Villanueva

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

La administración Trump retrocedió una orden ejecutiva del ex presidente Joe Biden que creó reglas sobre el desarrollo y el despliegue de IA. Desde entonces, el gobierno ha retrocedido de la regulación de la tecnología.

En una audiencia de más de tres horas en el Comité de Comercio, Ciencia y Transporte del Senado, ejecutivos como el CEO de Operai, Sam Altman, la CEO de AMD, Lisa Su, la cofundadora de CoreWeave y CEO Michael Intrator y Vicepresidente de Microsoft y Presidente Brad Smith instó a los políticos para aliviar el proceso de construcción de infraestructura en torno al desarrollo de AI.

Los ejecutivos dijeron a los formuladores de políticas que la aceleración de los permisos podría hacer que la construcción de nuevos centros de datos, las centros de energía para energizar los centros de datos e incluso los fabricantes de chips cruciales para apuntalar la pila tecnológica de IA y mantener al país competitivo contra China. También hablaron sobre la necesidad de trabajadores más calificados como electricistas, aliviando la inmigración del talento del software y alentando la “difusión de IA” o la adopción de modelos de IA generativos en los Estados Unidos y en todo el mundo.

Altman, recién visitando el proyecto Stargate de $ 500 mil millones de la compañía en Texas, dijo a los senadores que Estados Unidos está liderando el cargo en IA, pero necesita más infraestructura como las centrales eléctricas para alimentar su próxima fase.

“Creo que la próxima década será sobre abundante inteligencia y energía abundante. Asegurarse de que Estados Unidos lidere ambos, que podamos introducir estas revoluciones duales que cambiarán el mundo que vivimos de manera increíblemente positiva es crítico”, dijo Altman.

La audiencia se produjo cuando la administración Trump está determinando cuánta influencia tendrá el gobierno en el espacio de IA. El senador Ted Cruz de Texas, presidente del comité, dijo que propuso crear una caja de arena reguladora de IA.

Smith de Microsoft dijo en su testimonio escrito que las compañías de IA estadounidenses necesitan continuar innovando porque “es una carrera que ninguna compañía o país puede ganar por sí sola”.

Apoyando la pila de tecnología AI

Smith de Microsoft presentó la pila de tecnología AI, que según él muestra cuán importante es cada segmento del sector a la innovación.

“Todos estamos en esto juntos. Si Estados Unidos va a tener éxito en liderar el mundo en la IA, requiere infraestructura, requiere éxito a nivel de plataforma, requiere a las personas que crean aplicaciones”, dijo Smith.

Agregó: “La innovación irá más rápido con más infraestructura, permisos más rápidos y más electricistas”.

AMD reiteró que “mantener nuestro liderazgo en realidad requiere excelencia en cada capa de la pila”.

“Creo que los ecosistemas abiertos son realmente una piedra angular del liderazgo estadounidense, y eso permite que las ideas provengan de todas partes y cada parte del sector de la innovación”, dijo Su. “Está reduciendo las barreras para la entrada y el fortalecimiento de la seguridad, así como la creación de un mercado competitivo para ideas”.

Con los modelos de IA que necesitan más y más GPU para el entrenamiento, la necesidad de mejorar la producción de chips, construir más centros de datos y encontrar formas de alimentarlos se ha vuelto aún más crítico. La Ley de Chips y Ciencias, una ley de la era de Biden, estaba destinada a impulsar la producción de semiconductores en los Estados Unidos, pero hacer los chips necesarios para alimentar los modelos más poderosos del mundo a nivel local está demostrando ser lento y costoso.

En los últimos meses, compañías como Cerebras han anunciado planes para construir más centros de datos para ayudar a procesar la capacitación e inferencia de modelos.

Un descanso de las políticas actuales

La mayoría del Senado de los formuladores de políticas republicanas dejó en claro durante la audiencia que la administración Trump preferiría no regular el desarrollo de la IA, preferir un enfoque más impulsado por el mercado. Esta administración también ha presionado para un crecimiento más centrado en los Estados Unidos, exigiendo que las empresas usen productos estadounidenses y creen más empleos estadounidenses.

Sin embargo, los ejecutivos señalaron que para que la IA estadounidense siga siendo competitiva, las empresas necesitan acceso al talento internacional y, lo que es más importante, políticas de exportación claras para que los modelos fabricados en los EE. UU. Puedan ser atractivos para otros países.

“Necesitamos una adopción más rápida, a lo que las personas se refieren como difusión de IA. La capacidad de hacer que la IA trabaje en cada parte de la economía estadounidense para impulsar la productividad, para impulsar el crecimiento económico, permitir a las personas innovar en su trabajo”, dijo Smith. “Si Estados Unidos dirigirá el mundo, necesitamos conectarnos con el mundo. Nuestro liderazgo global se basa en nuestra capacidad para servir al mundo con el enfoque correcto y en nuestra capacidad para mantener la confianza del resto del mundo”.

Agregó que eliminar los límites cuantitativos para los países de nivel dos es esencial porque estas políticas “enviaron un mensaje a 120 naciones que no podían contar con nosotros para proporcionar la IA que desean y necesitan”.

Altman señaló: “Habrá excelentes chips y modelos entrenados en todo el mundo”, reiterando la posición de liderazgo de las compañías estadounidenses en el espacio.

Hay algunas buenas noticias en el área de la difusión de IA porque, si bien la audiencia estaba en curso, el Departamento de Comercio anunció que estaba modificando las reglas de la administración Biden que limitó qué países podrían recibir chips hechos por compañías estadounidenses. La regla entró en vigencia el 15 de mayo.

Si bien los ejecutivos dijeron que los estándares gubernamentales serían útiles, denunciaron cualquier movimiento para ver lanzamientos del modelo de “aprobación previa”, similares a la UE.

Ecosistema abierto

La IA generativa ocupa un espacio liminal en la regulación tecnológica. Por un lado, la falta comparativa de reglas ha permitido a empresas como OpenAI desarrollar tecnología sin mucho miedo a las repercusiones. Por otro lado, la IA, como Internet y las redes sociales antes, toca la vida de las personas profesionales y personalmente.

De alguna manera, los ejecutivos se alejaron de cómo la administración Trump ha posicionado el crecimiento de los Estados Unidos. La audiencia mostró que si bien las compañías de IA desean el apoyo del gobierno para acelerar el proceso de expansión de la infraestructura de IA, también deben estar más abiertos al resto del mundo. Requiere talento del extranjero. Necesita vender productos y plataformas a otros países.

El comentario de las redes sociales varió, y algunos señalaron que los ejecutivos, en particular Altman, tenían opiniones diferentes sobre la regulación antes.

2023 Sam Altman: le dice al Congreso que se debe crear una nueva agencia para requerir licencias para modelos de IA poderosos
2025 Sam Altman: dice el Congreso que requiere licencias para modelos de IA poderosos sería “desastroso”
– Tom Simonite (@tsimonite) 8 de mayo de 2025

Los ejecutivos de IA solían pedir una regulación. Ya no. https://t.co/hcdfsj2lcj
– Daniel Patrick Forrester (@DPForrester) 9 de mayo de 2025

Otros señalaron que otros países podrían ver dónde han fallado sus propias políticas de IA.

Esto es muy largo y parcialmente aburrido. Pero si trabaja en un país europeo o en la UE, esto debería ser una visita obligada.
Audiencia en el Senado sobre IA con Sam Altman, CEO de AMD, presidente Microsoft y fundador de CoreWeave.
Un gran tema recurrente: “¿Cómo nos aseguramos de las fallas …
– Jo Bhakdi (@Jobhakdi) 8 de mayo de 2025

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.