Noticias

China de código abierto AI Deepseek R1 coincide con el O1 de Openai con un costo 98% más bajo

Published

4 meses ago

25 enero, 2025

Los investigadores chinos de IA han logrado lo que muchos pensaban que estaban a años de distancia: un modelo de IA de código abierto gratuito que puede igualar o superar el rendimiento de los sistemas de razonamiento más avanzados de OpenAI. Lo que hace que esto sea aún más notable fue cómo lo hicieron: al dejar que la IA se enseñe a través de prueba y error, similar a cómo aprenden los humanos.

“Deepseek-r1-cero, un modelo entrenado a través de un aprendizaje de refuerzo a gran escala (RL) sin ajustar (SFT) supervisado como un paso preliminar, demuestra notables capacidades de razonamiento”. El trabajo de investigación dice.

El “aprendizaje de refuerzo” es un método en el que un modelo es recompensado por tomar buenas decisiones y castigado por tomar malas, sin saber cuál es cuál. Después de una serie de decisiones, aprende a seguir un camino que fue reforzado por esos resultados.

Inicialmente, durante la fase supervisada de ajuste fino, un grupo de humanos le dice al modelo el resultado deseado que desean, dándole un contexto para saber qué es bueno y qué no. Esto lleva a la siguiente fase, el aprendizaje de refuerzo, en el que un modelo proporciona diferentes resultados y los humanos clasifican los mejores. El proceso se repite una y otra vez hasta que el modelo sepa cómo proporcionar resultados satisfactorios constantemente.

Imagen: Deepseek

Deepseek R1 es una dirección en el desarrollo de IA porque los humanos tienen una parte mínima en la capacitación. A diferencia de otros modelos que están capacitados en grandes cantidades de datos supervisados, Deepseek R1 aprende principalmente a través del aprendizaje de refuerzo mecánico, lo que esencialmente resuelve las cosas experimentando y recibiendo comentarios sobre lo que funciona.

“A través de RL, Deepseek-R1-Zero emerge naturalmente con numerosos comportamientos de razonamiento poderosos e interesantes”, dijeron los investigadores en su artículo. El modelo incluso desarrolló capacidades sofisticadas como la autoverificación y la reflexión sin ser programado explícitamente para hacerlo.

A medida que el modelo pasó por su proceso de entrenamiento, naturalmente aprendió a asignar más “tiempo de pensamiento” a problemas complejos y desarrolló la capacidad de captar sus propios errores. Los investigadores destacaron un “A-ha momento” Cuando el modelo aprendió a reevaluar sus enfoques iniciales de los problemas, algo que no estaba explícitamente programado para hacer.

Los números de rendimiento son impresionantes. En el punto de referencia de Matemáticas AIME 2024, Deepseek R1 alcanzó una tasa de éxito del 79.8%, superando el modelo de razonamiento O1 de OpenAI. En las pruebas de codificación estandarizadas, demostró el rendimiento del “nivel de expertos”, logrando una calificación ELO de 2.029 en CodeForces y superó al 96.3% de los competidores humanos.

Pero lo que realmente distingue a Deepseek R1 es su costo, o la falta de él. El modelo ejecuta consultas a solo $ 0.14 por millón de tokens en comparación con los $ 7.50 de OpenAi, lo que lo hace 98% más barato. Y a diferencia de los modelos propietarios, el código y los métodos de entrenamiento de Deepseek R1 son de código abierto por completo bajo la licencia MIT, lo que significa que cualquiera puede tomar el modelo, usarlo y modificarlo sin restricciones.

Los líderes de IA reaccionan

El lanzamiento de Deepseek R1 ha desencadenado una avalancha de respuestas de los líderes de la industria de la IA, y muchos destacan la importancia de un modelo de código abierto que coinciden con líderes propietarios en capacidades de razonamiento.

El principal investigador de Nvidia, el Dr. Jim Fan, entregó quizás el comentario más puntiagudo, atrayendo un paralelo directo a la misión original de OpenAI. “Estamos viviendo en una línea de tiempo en la que una empresa no estadounidense mantiene viva la misión original de Operai, una investigación fronteriza realmente abierta que empodera a todos”, señaló Fan, alabando la transparencia sin precedentes de Deepseek.

Estamos viviendo en una línea de tiempo en la que una empresa no estadounidense mantiene viva la misión original de Operai, una investigación verdaderamente abierta y fronteriza que empodera a todos. No tiene sentido. El resultado más entretenido es el más probable.

Deepseek-r1 no solo de fuentes abiertas un aluvión de modelos sino … pic.twitter.com/m7eznemcoy

– Jim Fan (@drjimfan) 20 de enero de 2025

Fan gritó la importancia del enfoque de aprendizaje de refuerzo de Deepseek: “Ellos son quizás los primeros [open source software] proyecto que muestra un gran crecimiento sostenido de [a reinforcement learning] volante. También elogió el intercambio directo de Deepseek de “algoritmos crudos y curvas de aprendizaje de matplotlib” en comparación con los anuncios impulsados por exageración más comunes en la industria.

El investigador de Apple, Awni Hannun, mencionó que las personas pueden ejecutar una versión cuantificada del modelo localmente en sus Mac.

Deepseek R1 671b que se ejecuta en ultras de 2 m2 más rápido que la velocidad de lectura.

Acercándose a la O1 de código abierto, en casa, en el hardware del consumidor.

Con MLX. Distributed y MLX-LM, cuantificación de 3 bits (~ 4 BPW) pic.twitter.com/rnkyxwzg3c

– Awni Hannun (@Awnihannun) 20 de enero de 2025

Tradicionalmente, los dispositivos Apple han sido débiles en la IA debido a su falta de compatibilidad con el software CUDA de Nvidia, pero eso parece estar cambiando. Por ejemplo, el investigador de IA Alex Cheema fue capaz de ejecutar el modelo completo después de aprovechar la potencia de 8 mini unidades de Apple Mac que se ejecutan juntas, que todavía es más barata que los servidores necesarios para ejecutar los modelos de IA más potentes actualmente disponibles.

Dicho esto, los usuarios pueden ejecutar versiones más ligeras de Deepseek R1 en sus Mac con buenos niveles de precisión y eficiencia.

Sin embargo, las reacciones más interesantes se produjeron después de reflexionar sobre qué tan cerca está la industria de código abierto a los modelos patentados, y el impacto potencial que este desarrollo puede tener para OpenAi como líder en el campo de los modelos de IA de razonamiento.

El fundador de Stability Ai, Emad Mostaque, tomó una postura provocativa, lo que sugiere que el lanzamiento ejerce presión sobre los competidores mejor financiados: “¿Te imaginas ser un laboratorio fronterizo que se recauda como mil millones de dólares y ahora no puedes lanzar tu último modelo porque no puede hacerlo? ¿Beat Deepseek? “

¿Te imaginas ser un laboratorio “fronterizo” que se recauda como mil millones de dólares y ahora no puedes lanzar tu último modelo porque no puede vencer a Deepseek?

Sota puede ser una perra si ese es tu objetivo

– Emad (@emostá) 20 de enero de 2025

Siguiendo el mismo razonamiento pero con una argumentación más seria, el empresario tecnológico Arnaud Bertrand explicó que la aparición de un modelo competitivo de código abierto puede ser potencialmente perjudicial para OpenAi, ya que eso hace que sus modelos sean menos atractivos para los usuarios eléctricos que de otro modo podrían estar dispuestos a gastar un mucho dinero por tarea.

“Es esencialmente como si alguien hubiera lanzado un móvil a la par con el iPhone, pero lo vendía por $ 30 en lugar de $ 1000. Es tan dramático “.

La mayoría de la gente probablemente no se da cuenta de cuán malas son las noticias de China para Operai.

Se les ocurrió un modelo que coincide e incluso excede el último Modelo O1 de Openai en varios puntos de referencia, y están cobrando solo el 3% del precio.

Es esencialmente como si alguien hubiera lanzado un … pic.twitter.com/agss5woawf

– Arnaud Bertrand (@rnaudbertrand) 21 de enero de 2025

El CEO de Perplexity AI, Arvind Srinivas, enmarcó el lanzamiento en términos de su impacto en el mercado: “Deepseek ha replicado en gran medida O1 Mini y lo ha obtenido abierto”. En una observación de seguimiento, señaló el rápido ritmo de progreso: “Es un poco salvaje ver que el razonamiento se comercializa tan rápido”.

Es un poco salvaje ver que el razonamiento se comercializa tan rápido. Deberíamos esperar completamente un modelo de nivel de O3 que esté abierto para fin de año, probablemente incluso a mediados de año. pic.twitter.com/oyixks4udm

– Aravind Srinivas (@aravsrinivas) 20 de enero de 2025

Srinivas dijo que su equipo trabajará para llevar las capacidades de razonamiento de Deepseek R1 a la perplejidad profesional en el futuro.

Práctico

Hicimos algunas pruebas rápidas para comparar el modelo con OpenAI O1, comenzando con una pregunta bien conocida para este tipo de puntos de referencia: “¿Cuántas RS hay en la palabra Strawberry?”

Por lo general, los modelos luchan por proporcionar la respuesta correcta porque no funcionan con palabras: trabajan con tokens, representaciones digitales de conceptos.

GPT-4O falló, OpenAi O1 tuvo éxito, y también lo hizo Deepseek R1.

Sin embargo, O1 fue muy conciso en el proceso de razonamiento, mientras que Deepseek aplicó una gran producción de razonamiento. Curiosamente, la respuesta de Deepseek se sintió más humana. Durante el proceso de razonamiento, el modelo parecía hablar consigo mismo, usando argot y palabras poco comunes en máquinas pero más ampliamente utilizadas por los humanos.

Por ejemplo, mientras reflexiona sobre el número de Rs, el modelo se dijo a sí mismo: “Está bien, déjame resolver (esto)”. También usó “Hmmm”, mientras debatía, e incluso dijo cosas como “Espera, no. Espera, descoméalo “.

El modelo finalmente alcanzó los resultados correctos, pero pasó mucho tiempo razonando y escupiendo fichas. En condiciones de precios típicas, esto sería una desventaja; Pero dado el estado actual de las cosas, puede generar más fichas que OpenAI O1 y aún así ser competitivo.

Otra prueba para ver qué tan bien eran los modelos en el razonamiento de los “espías” e identificar a los perpetradores en una historia corta. Elegimos una muestra del conjunto de datos Big-Bench en GitHub. (La historia completa está disponible aquí e involucra un viaje escolar a una ubicación remota y nevada, donde los estudiantes y los maestros enfrentan una serie de desapariciones extrañas y el modelo debe descubrir quién era el acosador).

Ambos modelos lo pensaron por más de un minuto. Sin embargo, Chatgpt se estrelló antes de resolver el misterio:

Pero Deepseek dio la respuesta correcta después de “pensar” en ello durante 106 segundos. El proceso de pensamiento era correcto, e incluso el modelo era capaz de corregirse después de llegar a conclusiones incorrectas (pero aún lo suficientemente lógicas).

La accesibilidad de versiones más pequeñas impresionó particularmente a los investigadores. Para el contexto, un modelo de 1.5B es tan pequeño que teóricamente podría ejecutarlo localmente en un poderoso teléfono inteligente. E incluso una versión cuantificada de Deepseek R1 que Small pudo pararse cara a cara contra GPT-4O y Claude 3.5 Sonnet, según el científico de datos de Hugging Face, Vaibhav Srivastav.

“Deepseek-R1-Distill-Qwen-1.5b supera a GPT-4O y Claude-3.5-Sonnet en puntos de referencia de matemáticas con 28.9% en AIME y 83.9% en matemáticas”.

1.5b hizo qué? pic.twitter.com/pk6fojnma2

– Vaibhav (VB) Srivastav (@Reach_VB) 20 de enero de 2025

Hace solo una semana, Skynove de UC Berkeley lanzó Sky T1, un modelo de razonamiento también capaz de competir contra Operai O1 Preview.

Aquellos interesados en ejecutar el modelo localmente pueden descargarlo desde GitHub o Huggingf Face. Los usuarios pueden descargarlo, ejecutarlo, eliminar la censura o adaptarlo a diferentes áreas de experiencia al ajustarlo.

O si desea probar el modelo en línea, vaya a abrazar el chat o el portal web de Deepseek, que es una buena alternativa a ChatGPT, especialmente ya que es gratuita, de código abierto y la única interfaz de chatbot AI con un modelo creado para razonamiento además de chatgpt.

Editado por Andrew Hayward

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.

Noticias

La guerra de redes sociales de IA ha comenzado

Published

45 minutos ago

3 junio, 2025

Sergio Villanueva

La carne de res de Sam Altman versus Elon Musk ahora es todo menos cortés. En febrero, Musk lanzó una granada de adquisición de $ 97.4 mil millones en Operai, a la que Altman respondió en X con un “No gracias, pero compraremos Twitter por $ 9.74 mil millones si lo desea”.

X no fue comprado, pero Altman está construyendo su competidor.

Operai ha estado dibujando su propio patio de recreo de estilo X durante meses, lo suficiente como para que los expertos ahora hablen sobre el lanzamiento de la nueva red social en términos de cuandono si.

En febrero, después de que Meta anunció planes para construir una aplicación independiente para que su asistente de IA rivalice con la aplicación Chatgpt, Altman volvió a disparar en X: “Está bien, tal vez hagamos una aplicación social”.

Luego se filtró el 15 de abril de que un prototipo interno de Operai que combina un feed social con las capacidades de generación de imágenes de Chatgpt estaba en revisión. Más fuentes fueron tan lejos como para confirmar que, más allá de este prototipo, Operai ahora estaba “considerando” un rival completo de X.

Esta red social empuja las tierras en un momento crucial cuando los modelos de IA se están volviendo comerciales, el monopolio de las redes sociales de Meta muestra signos de vulnerabilidad, y la integración de hardware está surgiendo como un diferenciador clave.

Al combinar tres elementos, una plataforma social construida de forma nativa para la IA, el diseñador tecnológico de clase mundial Jony Ive y los dispositivos complementarios especialmente diseñados, OpenAi se está posicionando en la intersección de las tres tendencias poderosas.

Si la compañía logra este juego de redes sociales con éxito, atrapará a otros gigantes tecnológicos de pie plano, tanto que estoy convencido de que estamos presenciando las primeras salvas de una revolución de las redes sociales en toda regla.

En lugar de simplemente conectar a los usuarios para compartir contenido, el prototipo de red social de OpenAI aparece diseñado para aprovechar la IA para mejorar el proceso de creación de contenido en sí. En lugar de “compartir y luego desplazarse”, la IA salta en el minuto uno para ayudar hacer el post.

Esto es similar a la integración de Grok de X: si lo ha usado, notará rápidamente que a la gente le encanta que la IA diga algo estúpido para que puedan compartir la salida y ver que su publicación se vuelve viral.

El equivalente aquí para OpenAI es aprovechar sus capacidades de generación de imágenes favoritas de los fanáticos en un entorno social. En la primera semana de la disponibilidad de la herramienta, más de 130 millones de usuarios de ChatGPT crearon más de 700 millones de imágenes. Esta adopción masiva indica un interés significativo de los usuarios en compartir contenido visual generado por IA, de la misma manera que las personas ya comparten contenido escrito generado por IA en X.

Sin embargo, lejos de ser otro clon X, la red social de OpenAi se perfila como algo completamente nuevo. Esto es lo que he reconstruido hasta ahora:

La creación de contenido asistida por AI-AI-AI-Capacidades de generación de imágenes de Chatgpt
Un feed social para compartir e interactuar con contenido generado por IA
Integración con las capacidades de IA existentes de OpenAI y potencialmente su base de usuarios
Guardacas de seguridad similares a las utilizadas en la generación de imágenes de Chatgpt

También es probable que haya un componente de hardware para la red.

El 21 de mayo, Openai anunció su adquisición de IO, una compañía de hardware fundada por el ex jefe de diseño de Apple, Jony Ive. El acuerdo, valorado en casi $ 6.5 mil millones en una transacción de todo el stock, lleva aproximadamente 55 ingenieros de hardware, desarrolladores de software y expertos en fabricación al redil OpenAI.

Los primeros dispositivos después de la adquisición se lanzarán en 2026, pero no serán reemplazos de teléfonos inteligentes. Se mencionaron algunos detalles sobre la tecnología, incluido que será de bolsillo, contextualmente consciente, sin pantalla y no un par de gafas inteligentes, en una llamada interna de OpenAI.

La conexión entre esta iniciativa de hardware y las ambiciones de redes sociales de OpenAI es estratégicamente significativa. Estoy convencido de que al desarrollar una plataforma social y dispositivos complementarios, OpenAi se está posicionando para crear un ecosistema totalmente integrado donde las experiencias sociales con IA se optimizan para el hardware especialmente diseñado.

Es el clásico libro de jugadas de Apple, solo esta vez el principio de organización es pura IA.

Además, si bien IVE no se unirá a OpenAi directamente, su firma de diseño, LoveFrom, continuará siendo independiente, la asociación verá Love de “Take Onge para todos los OpenAi, incluido su software”. La experiencia estética y de usuario de la red social de OpenAI, sin duda, se beneficiará de la reconocida sensibilidad de diseño de Ive.

“La IA es una tecnología increíble, pero las grandes herramientas requieren trabajo en la intersección de la tecnología, el diseño y la comprensión de las personas y el mundo”, dijo Altman en un comunicado anunciando la adquisición de IO.

El contramardo de IO de Google

Google es, sin duda, uno de los mayores competidores de Openai en el espacio de IA, y en I/O 2025 (casualmente celebrado el mismo día que OpenAI anunció la adquisición de IO), el gigante de la búsqueda presentó actualizaciones de IA significativas e impresionantes.

Dos grandes fueron la integración de Gemini en Chrome para los usuarios de escritorio y el anuncio del “modo de agente”, una característica experimental donde los usuarios simplemente pueden describir su objetivo final y Gemini puede trabajar de manera autónoma para lograrlo. Esta capacidad refleja el tipo de experiencia asistida por AI-AI que las fuentes dicen que OpenAi se está incorporando a su red social.

Según la publicación oficial de blog de E/S 2025 de Google, Gemini 2.5 Pro es ahora el modelo líder mundial en las tablas de clasificación Webdev Arena y Lmarena, y en base a mi experiencia personal utilizando los modelos de Google con puntos de referencia de rendimiento específicamente en la mente, están liderando en muchos aspectos. La publicación también señala que la aplicación Gemini ahora tiene más de 400 millones de usuarios activos mensuales, una base de usuarios lo suficientemente masiva como para ponerla en competencia directa con ChatGPT.

Sin embargo, si bien estos avances posicionan a Google como una amenaza para el creciente ecosistema de inteligencia artificial de Openii, también sugieren que la estrategia de la compañía es continuar mejorando sus productos existentes con IA en lugar de tratar de competir directamente en el espacio de redes sociales.

Un imperio debilitante

En cuanto al rey de ese espacio, meta, está avanzando con los esfuerzos para defender su territorio contra los avances de OpenAi.

Durante una llamada de ganancias del primer trimestre de 2025 el 30 de abril, el CEO Mark Zuckerberg describió una estrategia integral de IA. “Estamos haciendo un buen progreso en las gafas de IA y la meta ai, que ahora tiene casi mil millones de activos mensuales”, dijo Zuck a los inversores, según la transcripción de la llamada. Este hito pone al asistente de IA de Meta a la par de Géminis de Google en términos de adopción del usuario, y potencialmente antes de ChatGPT.

La familia de modelos de Meta’s Llama 4 ha visto una notable adopción, y Meta dijo en marzo de 2025 que Llama había alcanzado las 1 mil millones de descargas. El día antes de la llamada de ganancias, la compañía lanzó una aplicación Meta AI dedicada construida con Llama 4, llamándola “un primer paso para construir una IA más personal”. Esta aplicación independiente representa un desafío directo a ChatGPT y, por extensión, los planes de redes sociales de OpenAI.

Operai puede posicionarse como una alternativa fresca y nativa de AI a las experiencias sociales existentes de Meta.

Sin embargo, aunque sigue siendo dominante en el espacio de redes sociales, Meta muestra signos de vulnerabilidad.

La compañía parece firme en su creencia de que las experiencias sociales en última instancia abarcarán tanto los asistentes de IA como los mundos virtuales inmersivos, como lo demuestran su continua inversión en los mundos de horizonte. Esta visión de la realidad virtual social pronto puede competir directamente con las iniciativas de hardware y redes de hardware de Openai, pero la inversión aún no ha producido rendimientos significativos: en el primer trimestre de 2025, la División de Laboratorios VR de Meta informó otras pérdidas de $ 4.2 mil millones.

El pivote de Meta a la IA también sugiere una postura defensiva contra las amenazas emergentes, como OpenAi y Anthrope. Esto crea una apertura estratégica para la nueva red social de Openai: puede posicionarse como una alternativa nueva y nativa de AI a las plataformas heredadas de Meta y las experiencias sociales existentes, que se están modificando con capacidades de IA.

Antrópico como el retador

Hablando de antrópico, el día después de la salpicadura de Altman, el paisaje de IA se volvió aún más competitivo con la inauguración de la startup de Claude 4 y la introducción de dos nuevos modelos: Claude Opus 4 y Claude Sonnet 4.

“Claude Opus 4 es el mejor modelo de codificación del mundo, con un rendimiento sostenido en tareas complejas y de larga duración y flujos de trabajo de agentes”, compartió Anthrope en su anuncio de lanzamiento. La compañía respaldó este reclamo con impresionantes puntos de referencia: 72.5% de precisión en el punto de referencia de ingeniería de software y 43.2% en el banco terminal. He revisado los puntos de referencia y ya he usado Claude 4 en mi IDE para tareas de codificación compleja y estoy convencido de que estamos en un punto de inflexión para los modelos de codificación de IA.

Lo que hace que Claude 4 sea particularmente relevante para las ambiciones de las redes sociales de OpenAi es su capacidad mejorada de trabajar continuamente durante varias horas, una capacidad que podría permitir agentes de IA más sofisticados dentro de las plataformas sociales. Según Anthrope, Claude Opus 4 puede mantener el enfoque en las tareas que requieren “miles de pasos”, superando drásticamente los modelos anteriores.

Este lanzamiento de Claude 4 subraya una realidad estratégica crítica para OpenAI: los modelos de IA en sí mismos se están volviendo rápidamente comerciantes.

Con múltiples compañías que ahora ofrecen potentes capacidades de IA de última generación, la tecnología subyacente por sí sola ya no es un diferenciador suficiente. Esta mercantilización hace que el juego de red social de OpenAI sea cada vez más importante como una forma de crear una posición de mercado única y defendible. Controlando ambos modelos de IA y La plataforma social donde los usuarios interactúan con ellos, OpenAi puede crear un valor que va más allá de lo que es posible solo con los modelos.

Las apuestas sociales

Y luego están los datos. Siempre los datos.

Las interacciones de los usuarios en tiempo real son invaluables para capacitar a los futuros modelos de IA: son como el oro digital en un mundo ahora invadido por AI SLOP. Una red social proporciona a su propietario un suministro constante de estos datos, que solo se volverán más valiosos a medida que las capacidades del modelo base converjan entre los competidores.

X y Meta ya están obteniendo estos datos de capacitación únicos en tiempo real de sus redes. Operai lo necesita, y la adquisición de IO de Ive podría agregar un diseño de clase mundial y hardware dedicado a sus ofertas de redes sociales, ayudando a atraer a los usuarios.

A medida que los principales jugadores de inteligencia artificial, OpenAi, Google, Meta y Anthrope, continúan evolucionando sus estrategias y capacidades, las líneas entre asistentes de IA, redes sociales y dispositivos de hardware son cada vez más borrosos. Creo que estamos presenciando no solo mejoras incrementales en la tecnología de IA, sino también la aparición de una categoría completamente nueva de productos y experiencias que podrían remodelar fundamentalmente la forma en que interactuamos con las redes sociales.

Nos guste o no, los ojos de IA ahora están en nuestros feeds.

¡Nos encantaría saber de ti! Si tiene un comentario sobre este artículo o si tiene un consejo para una futura historia de Freethink, envíenos un correo electrónico a tips@freethink.com.

Noticias

Acabo de probar las versiones más recientes de Claude, Gemini, Deepseek y Chatgpt, y el ganador me sorprendió por completo

Published

6 horas ago

3 junio, 2025

Sergio Villanueva

Los chatbots de IA están evolucionando rápidamente con actualizaciones que ocurren constantemente de los nombres más familiares en Big Tech. Una vez más, Deepseek de China se encuentra entre los últimos en unirse a la carrera de primer nivel con un contexto de 128k, lo que significa que puede manejar conversaciones más largas y documentos más complejos.

Con la reciente actualización de su modelo R1, Deepseek se está posicionando como un competidor serio para Chatgpt, Claude y Gemini.

Si bien los puntos de referencia muestran un rendimiento superior, ¿cómo se acumula realmente en el uso del mundo real?

Para averiguarlo, puse cuatro de los modelos más nuevos (Claude 4, Gemini 2.5 Pro, ChatGPT-4O y Deepseek R1) a través de las mismas cinco indicaciones diseñadas para probar el razonamiento, la creatividad, la inteligencia emocional, los consejos de productividad y las habilidades de codificación. Los resultados revelan dónde brilla cada IA, y dónde tropiezan.

1. Razonamiento y planificación

(Crédito de la imagen: futuro)

Inmediato: “Le han dado un presupuesto de $ 5,000 para planificar un fin de semana de cumpleaños sorpresa para un joven de 40 años que ama las películas de senderismo, vino y ciencia ficción. El destino debe estar dentro de los Estados Unidos, y el evento debe incluir al menos tres actividades. Detalte su plan, explique su razonamiento y desglose el presupuesto”.

Veterano Diseñó una propuesta centrada en Napa Valley con un enfoque en el lujo cinematográfico. Mezcló el senderismo, las degustaciones de vinos y la ciencia ficción a través de las noches privadas de cine bajo las estrellas. El presupuesto ($ 4,760) incluyó derroches como Auberge du Soleil Dining mientras conservaba $ 240 por flexibilidad.

Géminis caminatas combinadas y degustaciones de vinos también con asentimientos experimentales como el Centro de Ciencias y Space & Science de Chabot y la fuente Yoda de Lucasfilm. El presupuesto asignó sabiamente $ 3,500 para costos centrales y reservó $ 1,500 para actualizaciones (por ejemplo, estadías de lujo o globos de aire caliente), enfatizando la flexibilidad y la escalabilidad sorpresa.

Tirar entregó un itinerario de Napa de alto lujo y cohesivo centrado en la indulgencia. Los aspectos más destacados incluyeron un recorrido en helicóptero sobre viñedos, un taller de mezcla de vinos, caminatas guiadas de secoyas y una proyección de ciencia ficción al aire libre bajo las estrellas. Si bien sus elementos de película eran elegantes, la integración de ciencia ficción carecía de una originalidad más profunda más allá de las proyecciones.

Chatgpt Ofreció un fin de semana de napa atmosférico y aerodinámico anclado por una caminata de Stargazing y un alquiler de cine privado. Su fuerza estaba en un ritmo simple y toques románticos como picnics de viñedos, pero la ejecución de ciencia ficción se inclinó fuertemente solo en las proyecciones de la película.

Ganador: Géminis gana con sus experiencias imaginativas de ciencia ficción y flexibilidad presupuestaria incorporada. Si bien todos los planes me dan ganas de empacar mis maletas para unas vacaciones increíbles, el equilibrio de la naturaleza de Gemini, el vino y la profundidad juguetona de ciencia ficción se sintieron más completas.

2. Codificación y depuración

(Crédito de la imagen: futuro)

Inmediato: “Escriba una función de Python que tome una lista de palabras y devuelva los 3 palíntromos más comunes (insensibles a los casos). Luego, explique su enfoque y cómo probaría los casos de borde”.

Veterano centrado en la eficiencia y el manejo explícito de los casos de borde. Si bien es conciso, omitió las funciones de ayudantes modulares y los ejemplos de pruebas detallados, priorizando la implementación limpia sobre la extensibilidad.

Géminis Incluyó una función auxiliar para cheques de palíndromo, omitidos explícitamente no hilos/cuerdas vacías y se usa la ruptura de la corbata lexicográfica. Puso un énfasis en la robustez, la documentación y el cumplimiento inmediato se destacó.

Tirar Haga hincapié en la flexibilidad y devolvió las tuplas del conteo de palíndromo en lugar de solo las palabras, desviándose de la solicitud. Las pruebas en el caso de los costos se demostraron a través de ejemplos, pero TIE-rompiendo no se abordó.

Chatgpt Optó por el minimalismo: una lógica de núcleo de cuatro líneas compacta. Se normalizó el caso pero se omitió la validación explícita para las cuerdas sin huellas/vacías, arriesgando errores con entradas de tipo mixto. El código en sí no implementó salvaguardas como el manejo de espacios blancos o la resolución de corbata determinista.

Ganador: Géminis gana En esta ronda porque es la única solución que maneja explícitamente todos los casos de borde (no huellas, cuerdas vacías, espacios en blanco). También es el más claro y proporciona el plan de prueba de costura de borde más completo.

3. Inteligencia emocional

(Crédito de la imagen: futuro)

Inmediato: Un amigo te envía mensajes de texto: “No creo que pueda hacer esto más”. Escribe tres versiones de una respuesta compasiva y útil:

Un breve y solidario

Uno alentador pero humorístico

Uno profundamente empático e ingenioso, incluidos consejos y recursos

Veterano Priorizado apoyo escalonado y precisión emocional. Todas las respuestas preservaron la agencia a través del lenguaje de invitación (“¿Podemos …?”), Y el nivel de recursos agradeció explícitamente la vulnerabilidad, un constructor de confianza crítico. Sin embargo, el humor podría fallar si la angustia del amigo es aguda.

Géminis entregó las respuestas más informadas clínicamente. El nivel ingenioso fue excepcional: soporte de crisis basado en texto (741741) priorizó la accesibilidad para usuarios ansiosos, y frases como “es un signo de fuerza” refirfrado la búsqueda de ayuda.

Tirar sobresalió en un cálido pragmatismo. Su toque más fuerte fue separar las necesidades inmediatas/de crisis (“En este momento, por favor, sé …”), pero omitir el soporte de crisis basado en texto fue una brecha.

Chatgpt ofreció brevedad y vinculación. La breve respuesta (“Estoy aquí … lo resolveremos”) fue casi perfecto, conciso pero centrado en la alianza. Su fuerza central era la eficiencia emocional (“usted es más importante de lo que sabes”), pero el andamio procesable se retrasó detrás de otros chatbots.

Ganador: Géminis gana. Dominó los tres tonos mientras centraba la agencia y la seguridad de los amigos.

4. Soporte de la vida real

(Crédito de la imagen: futuro)

Inmediato: “¿Cuáles son tres mejoras que podría hacer para aumentar la productividad y reducir el estrés? Sea específico”.

Veterano centrado en Hacks neurobiológicos con protocolos precisos. Se destacó con el momento respaldado por la ciencia y los recursos gratuitos, pero no logró asumir el conocimiento de fisiología básica

Géminis sugirió una descomposición de objetivos inteligentes para ayudar a abordar a abrumador antes de que comience.

Tirar ofrecía soluciones prácticas pero carecían de herramientas de estrés fisiológico, como ejercicios básicos de respiración. La respuesta tampoco incluía recomendaciones de recursos.

Chatgpt Brevedad priorizada, lo que hace que la respuesta sea ideal para las personas con poco tiempo. El chatbot era vago sobre cómo para identificar picos de energía.

Ganador: Deepseek gana por un cabello. El chatbot casó pasos procesables con neurociencia. Géminis fue un segundo muy cercano para la compasión y el replanteamiento paso a paso.

5. Creatividad

(Crédito de la imagen: futuro)

Inmediato: “Explique cómo capacitar un modelo de idioma grande es como criar a un niño, utilizando una metáfora extendida. Incluya al menos cuatro fases y anote los riesgos de” mala crianza “.

Veterano Mostró una clara progresión de 4 fases con términos técnicos tejidos naturalmente en la metáfora.

Tirar Fases etiquetadas creativamente con una fuerte analogía de cierre. Noté que los riesgos de “malos crías” no están tan bien vinculados por fase con los riesgos de fase 3 combinados.

Géminis Las fases vinculadas explícitamente con las etapas de entrenamiento, aunque era demasiado detallada: las fases se difuminan ligeramente y los riesgos carecen de resúmenes detallados.

Chatgpt entregó un tono simple y conversacional con emojis para agregar énfasis. Pero fue más ligero en la alineación técnica con la crianza de los hijos.

Ganador: Deepseek gana Para equilibrar la precisión técnica, la consistencia metafórica y el análisis de riesgos vívidos. Aunque el encuadre poético de Claude era un contendiente muy cercano.

Ganador general: Géminis

En un paisaje que evoluciona más rápido de lo que podemos rastrear completamente, todos estos modelos de IA muestran distinciones claras en cómo procesan, responden y empatan. Géminis se destaca en general, ganando en creatividad, inteligencia emocional y robustez, con una mezcla reflexiva de perspicacia práctica y matices humanos.

Deepseek demuestra que ya no es un contendiente de nicho, con fortalezas sorprendentes en el razonamiento científico y la claridad metafórica, aunque su rendimiento varía según la complejidad y el tono emocional de la solicitud.

Claude sigue siendo un solucionador de problemas poético con un fuerte razonamiento y calidez, mientras que ChatGPT sobresale con la simplicidad y la accesibilidad, pero a veces carece de precisión técnica.

Si esta prueba demuestra algo, es que ningún modelo es perfecto, pero cada uno ofrece una lente única sobre cómo la IA se está volviendo más útil, más humana y más competitiva a día.

Más de la guía de Tom

Volver a las computadoras portátiles

Noticias

Sora de OpenAI ahora está disponible de forma gratuita para todos los usuarios a través de Microsoft Bing Video Creator en Mobile

Published

11 horas ago

2 junio, 2025

Sergio Villanueva

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

El Sora de Openai fue uno de los lanzamientos más exagerados de la era de la IA, que se lanzará en diciembre de 2024, casi 10 meses después de que se previse por primera vez a reacciones asombrosas debido a que, al menos, al menos, un nivel de realismo sin precedentes, dinamismo de la cámara y adherencia rápida y clips de generación larga de 60 segundos.

Sin embargo, gran parte del brillo se ha desgastado como muchos otros generadores de videos de IA, desde startups de EE. UU. Hasta la pista de Luma y los competidores chinos Kling, Hailuo Minimax e Israel’s LTX Studio están ofreciendo modelos generativos de video de IA y aplicaciones para consumidores y usuarios empresariales que rivalizan o ya han superado la oferta de Openi. Además, todavía no hemos obtenido generaciones de 60 segundos de un solo mensaje SORA (que yo sepa, el máximo parece ser de 20 segundos).

Pero ahora Openai y su aliado/inversor/frenemy Microsoft están buscando llevar a Sora a muchos más usuarios, de forma gratuita (al menos durante algunas generaciones). Hoy, Microsoft anunció que Sora ahora se ofrece a través de su función Bing Video Creator en la aplicación móvil gratuita de Bing para iOS (Apple iPhone y App Store) y Android (Google Play Store).

Ese es un valor increíble, dado que para obtenerlo a través de ChatGPT y OpenAI, deberá pagar una suscripción CHATGPT Plus ($ 20 mensual) o Pro ($ 200 mensual).

Bing Video Creator con Sora es el último de una serie de ofertas impulsadas por la IA de Microsoft, después del lanzamiento de Bing Image Creator y Copilot.

https://www.youtube.com/watch?v=poxwxmja224

Como Microsoft Corporate Vicepresident (CVP) y Jefe de Search Jordi Ribas escribieron en X: “Hace dos años, Bing fue el primer producto en enviar creación de imágenes de forma gratuita para nuestros usuarios. Hoy, estoy emocionado de compartir que Bing Video Creator ahora está disponible en la aplicación Mobile de Bing, en todas partes que Bing Image Creator está disponible. Ven a la vida “.

Para presentar Bing Video Creator, Microsoft ha lanzado un anuncio de video promocional (incrustado arriba) que muestra cómo la herramienta da vida a ideas creativas.

El anuncio demuestra que los usuarios escriben indicaciones como “Crear un colibrí que aletea sus alas en cámara ultra lenta”, “una tortuga que se desplaza lentamente a través de un cañón de coral de neón” y “un pequeño astronauta que explora un planeta de hongos gigantes”. La IA luego genera videoclips cortos y vibrantes basados en estas indicaciones.

El video enfatiza lo fácil que es crear y compartir estos videos, incluido un ejemplo del video de astronauta que se comparte en un chat y recibe reacciones positivas.

Creaciones de video verticales de 5 segundos gratis en dispositivos móviles, con videos horizontales próximamente

Bing Video Creator convierte las indicaciones de texto en videos generados por IA de cinco segundos. Todavía no es compatible con las generaciones de texto a video o video a video (que muchos otros generadores de videos de IA rivales, incluida la implementación de SORA de OpenAI).

Para usar la herramienta, los usuarios pueden abrir la aplicación móvil Bing, toque el menú en la esquina inferior derecha y seleccione “Video Creator”.

Alternativamente, puede iniciar el proceso de creación de video escribiendo una solicitud directamente en la barra de búsqueda de Bing en la aplicación, lo que es lo que es “crear un video de …”

Una vez que se ingresa el mensaje, Bing Video Creator genera un video corto basado en la descripción.

Por ejemplo, un aviso como “En un concurrido restaurante de pizza italiano, una pequeña nutria funciona como chef y usa un sombrero de chef y un delantal. Amasa la masa con sus patas y está rodeado de otros ingredientes de pizza”, resultaría en un video de cinco segundos de cinco segundos atractivo.

Actualmente, los videos están disponibles en 9:16 Formato de retrato, es decir, vertical, perfecto para los pantalones cortos de Tiktok y YouTube, aunque Microsoft lo dice en su publicación de blog de anuncios que una opción de relación de aspecto de 16: 9 también conocida como paisaje u horizontal está “llegando pronto”.

Los usuarios pueden hacer cola hasta tres generaciones de video a la vez, y cada creación se almacena por hasta 90 días. Una vez que un video está listo, se puede descargar, compartir por correo electrónico o redes sociales, o acceder a través de un enlace directo.

Bing Video Creator estará disponible en todo el mundo hoy, excepto China y Rusia. Ahora está disponible en la aplicación móvil de Bing, y también se dice que la búsqueda de escritorio y copilotos se lanzarán “pronto”.

Gratis para usar para 10 generaciones rápidas, generaciones lentas ilimitadas

Bing Video Creator es gratuito para todos los usuarios.

A cada usuario se le permiten diez generaciones de video “rápidas”, que pueden crear videos en segundos.

Después de usarlos, los usuarios pueden continuar con las generaciones de velocidad estándar, lo que lleva minutos, sin costo, o canjea 100 puntos de recompensas de Microsoft por cada creación rápida adicional.

Esos puntos de recompensa provienen del programa gratuito de opción de Microsoft que permite a los usuarios ganar puntos para las actividades cotidianas, como buscar con Bing, comprar en la tienda de Microsoft o jugar con Xbox Game Pass.

Para participar, los usuarios deben iniciar sesión con una cuenta de Microsoft y activar su tablero de recompensas aquí.

Más allá de los divertidos videos y publicaciones en redes sociales, Bing Video Creator se posiciona como una herramienta para mejorar la comunicación cotidiana y la creatividad. El anuncio de Bing alienta a los usuarios a crear videos para celebrar momentos especiales, probar ideas creativas y comunicarse de manera más efectiva.

Para ayudar a los usuarios a obtener los mejores resultados, Bing sugiere proporcionar indicaciones descriptivas, incorporar un lenguaje orientado a la acción y experimentar con tono y estilo, como la estética cinematográfica o juguetona.

AI y seguridad responsables, incorporado

Microsoft dice que Bing Video Creator está diseñado de acuerdo con sus principios de IA responsables, aprovechando los estándares C2PA para las credenciales de contenido para ayudar a identificar contenido generado por AI.

La herramienta también incluye características de moderación que bloquean automáticamente las indicaciones que podrían generar videos dañinos o inseguros.

Implicaciones para empresas y tomadores de decisiones técnicas

Aunque Bing Video Creator se enmarca actualmente como una herramienta centrada en el consumidor, su tecnología y capacidades subyacentes podrían tener implicaciones interesantes para los usuarios empresariales, particularmente aquellos involucrados en la orquestación de IA, la ingeniería de datos y el despliegue del modelo de IA.

Para los ingenieros de IA responsables de implementar y ajustar modelos de idiomas grandes, Bing Video Creator destaca la creciente madurez del video de IA generativo más allá de los modelos basados en texto. Si bien no es un producto empresarial en sí, la tecnología detrás de este podría inspirar nuevas formas de incorporar la generación de videos en los flujos de trabajo comerciales, como crear resúmenes de video automatizados, contenido de capacitación o materiales de marketing.

Para los profesionales que orquestan tuberías de IA escalables, Bing Video Creator muestra una aplicación práctica de video generativo que podría influir en cómo las empresas piensan sobre la implementación de estos modelos a escala. La facilidad de uso y la capacidad de respuesta rápida de la herramienta sugieren posibles aplicaciones futuras dentro de los flujos de trabajo empresariales, ya sea para capacitación interna, ideación creativa o participación del cliente.

Los ingenieros de datos pueden ver la simplicidad y la compartimiento del creador de video de Bing como una demostración de cómo la IA puede hacer que las ideas complejas basadas en datos sean más accesibles. Si bien estos videos de grado de consumo son breves y enfocados visualmente, se podría adaptar tecnología similar en el futuro para convertir conjuntos de datos complejos o resultados del proyecto en narraciones de video cortas y atractivas que resuenan con audiencias no técnicas.

Bing Video Creator es parte del impulso continuo de Bing para democratizar la creatividad de la IA. Si bien aún no se sabe sobre las características más allá del soporte de video de paisajes, Bing dice que continuará refinando y expandiendo la experiencia a medida que más usuarios comiencen a explorar la generación de videos.

Para aquellos listos para probarlo, Bing invita a los usuarios a descargar la aplicación móvil Bing y comenzar a crear videos hoy.

Para obtener más información sobre Bing Video Creator y cómo comenzar a obtener puntos de recompensas de Microsoft para una creación de video aún más rápida, visite aquí.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.