Noticias

Deepseek-r1 vs. OpenAI’s O1: un nuevo paso en código abierto y modelos propietarios

Published

4 meses ago

25 enero, 2025

AI ha entrado en una era del surgimiento de modelos de idiomas grandes y innovadores y modelos multimodales. El desarrollo tiene dos lados, uno con código abierto y el otro es modelos de propiedad. Deepseek-r1un modelo de IA de código abierto desarrollado por Deepseek-AI, una compañía de investigación china, ejemplifica esta tendencia. Su surgimiento ha desafiado el dominio de modelos patentados como el O1 de OpenAi, provocando discusiones sobre la eficiencia de rentabilidad, la innovación de código abierto y el liderazgo tecnológico global en la IA. Vamos a profundizar en el desarrollo, las capacidades y las implicaciones de Deepseek-R1 al compararlo con el sistema O1 de OpenAI, considerando las contribuciones de ambos espacios.

Deepseek-R1 es el gran resultado de los esfuerzos innovadores de Deepseek-AI en LLM de código abierto para mejorar las capacidades de razonamiento a través del aprendizaje de refuerzo (RL). El desarrollo del modelo se aparta significativamente de los métodos tradicionales de capacitación de IA que dependen en gran medida del ajuste fino supervisado (SFT). En su lugar, Deepseek-R1 emplea una tubería de varias etapas que combina datos en frío, RL y datos supervisados para crear un modelo capaz de razonamiento avanzado.

El proceso de desarrollo

Deepseek-R1 aprovecha un proceso único de capacitación en varias etapas para lograr capacidades de razonamiento avanzado. Se basa en su predecesor, Deepseek-R1-Zero, que empleó a Pure RL sin depender de SFT. Si bien Deepseek-R1-Zero demostró capacidades notables en los puntos de referencia de razonamiento, enfrentó desafíos como la mala legibilidad e inconsistencias del lenguaje. Deepseek-r1 adoptó un enfoque más estructurado para abordar estas limitaciones, integrando Datos de arranque en frío, RL orientado al razonamiento y SFT.

El desarrollo comenzó con la recolección de miles de ejemplos de alta calidad de largas cadenas de pensamiento (COT), una base para ajustar el modelo de base profunda-V3. Esta fase de arranque en frío enfatizó la legibilidad y la coherencia, asegurando que las salidas fueran fáciles de usar. El modelo se sometió a un proceso RL orientado al razonamiento utilizando la optimización de políticas relativas del grupo (GRPO). Este algoritmo innovador mejora la eficiencia del aprendizaje al estimar las recompensas en función de los puntajes grupales en lugar de usar un modelo crítico tradicional. Esta etapa mejoró significativamente las capacidades de razonamiento del modelo, particularmente en las tareas matemáticas, codificación y lógica intensiva. Después de la convergencia de RL, Deepseek-R1 se sometió a SFT utilizando un conjunto de datos de aproximadamente 800,000 muestras, incluidas las tareas de razonamiento y no conductores. Este proceso amplió las capacidades de uso general del modelo y mejoró su rendimiento en los puntos de referencia. Además, las capacidades de razonamiento se destilaron en modelos más pequeños, como Qwen y Llama, lo que permite el despliegue de IA de alto rendimiento en formas computacionalmente eficientes.

Excelencia técnica y rendimiento de referencia

Deepseek-R1 se ha establecido como un modelo de IA formidable, sobresaliendo en puntos de referencia en múltiples dominios. Algunos de sus puntos destacados de rendimiento clave incluyen:

Matemáticas: el modelo logró un puntaje PASS@1 de 97.3% en el punto de referencia Math-500, comparable al O1-1217 de OpenAI. Este resultado subraya su capacidad para manejar tareas complejas de resolución de problemas.
Codificación: en la plataforma CodeForces, Deepseek-R1 logró una calificación ELO de 2029, colocándola en el percentil superior de los participantes. También superó a otros modelos en puntos de referencia como SWE Verified y LivecodeBench, solidificando su posición como una herramienta confiable para el desarrollo de software.
Los puntos de referencia de razonamiento: Deepseek-R1 logró un pase@1, anotando 71.5% en GPQA Diamond y 79.8% en AIME 2024, lo que demuestra sus capacidades de razonamiento avanzado. Su uso novedoso del razonamiento de COT y RL lograron estos resultados.
Tareas creativas: Deepseek-R1 se destacó en tareas creativas y de preguntas generales más allá de los dominios técnicos, logrando una tasa de victorias del 87.6% en Alpacaeval 2.0 y 92.3% en Arenahard.

Las características clave de Deepseek-R1 incluyen:

Arquitectura: Deepseek-R1 utiliza una mezcla de diseño de expertos (MOE) con 671 mil millones de parámetros, activando solo 37 mil millones de parámetros por pase hacia adelante. Esta estructura permite un cálculo y escalabilidad eficientes, lo que lo hace adecuado para la ejecución local en hardware de grado consumidor.
Metodología de capacitación: a diferencia de los modelos tradicionales que dependen del ajuste fino supervisado, Deepseek-R1 emplea un enfoque de capacitación basado en RL. Esto permite que el modelo desarrolle de forma autónoma las capacidades de razonamiento avanzado, incluido el razonamiento y la autoverificación de COT.
Métricas de rendimiento: los puntos de referencia iniciales indican que Deepseek-R1 sobresale en varias áreas:
- Math-500 (pase@1): 97.3%, superando el O1 de OpenAI que alcanzó el 96.4%.
- Calificación de CodeForces: Cerrar competencia con las mejores calificaciones de OpenAI (2029 vs. 2061).
- C-EVAL (puntos de referencia chinos): Lograr una precisión récord del 91.8%.
Se informa que Deepseek-R1 ofrece un rendimiento comparable al O1 de OpenAI a un costo aproximadamente 95% más bajo, lo que podría alterar significativamente el panorama económico del desarrollo y el despliegue de IA.

Los modelos O1 de OpenAI son conocidos por sus habilidades de razonamiento de vanguardia y resolución de problemas. Se desarrollaron enfocándose en SFT y RL a gran escala para refinar sus capacidades de razonamiento. La serie O1 se destaca en el razonamiento COT, que implica desglosar tareas complejas y detalladas en pasos manejables. Este enfoque ha llevado a un rendimiento excepcional de matemáticas, codificación y razonamiento científico.

Una fortaleza principal de la serie O1 es su enfoque en la seguridad y el cumplimiento. OpenAI ha implementado rigurosos protocolos de seguridad, incluidos ejercicios externos de equipo rojo y evaluaciones éticas, para minimizar los riesgos asociados con los resultados nocivos. Estas medidas aseguran que los modelos se alineen con las pautas éticas, lo que los hace adecuados para aplicaciones de alto riesgo. Además, la serie O1 es altamente adaptable, sobresaliendo en diversas aplicaciones que van desde la escritura creativa y la IA conversacional hasta la resolución de problemas de múltiples pasos.

Características clave del O1 de OpenAI:

Variantes del modelo: la familia O1 incluye tres versiones:
1. O1: La versión completa con capacidades avanzadas.
2. O1-Mini: un modelo más pequeño y más eficiente optimizado para la velocidad mientras mantiene un rendimiento fuerte.
3. Modo O1 Pro: la variante más potente, que utiliza recursos informáticos adicionales para un rendimiento mejorado.
Capacidades de razonamiento: los modelos O1 están optimizados para tareas de razonamiento complejas y demuestran mejoras significativas sobre los modelos anteriores. Son particularmente fuertes en aplicaciones STEM, donde pueden desempeñarse en niveles comparables a los estudiantes de doctorado en tareas de referencia desafiantes.
Puntos de referencia de rendimiento:
1. En el American Invitational Mathematics (AIME), el modo O1 Pro obtuvo un 86%, superando significativamente el O1 estándar, que obtuvo un 78%, mostrando sus capacidades matemáticas.
2. En los puntos de referencia de codificación como CodeForces, los modelos O1 lograron una alta clasificación, lo que indica un fuerte rendimiento de codificación.
Capacidades multimodales: los modelos O1 pueden manejar entradas de texto e imágenes, lo que permite un análisis e interpretación exhaustivos de datos complejos. Esta funcionalidad multimodal mejora su aplicación en varios dominios.
Comprobación de facto: la verificación auto-facto mejora la precisión y la confiabilidad, particularmente en dominios técnicos como la ciencia y las matemáticas.
Razonamiento de la cadena de pensamiento: los modelos O1 utilizan el aprendizaje de refuerzo a gran escala para participar en procesos de razonamiento complejos antes de generar respuestas. Este enfoque les ayuda a refinar sus resultados y reconocer errores de manera efectiva.
Características de seguridad: Mitigación de sesgo mejorada y una mejor adhesión de la política de contenido asegurar que las respuestas generadas por los modelos O1 sean seguras y apropiadas. Por ejemplo, logran una puntuación no uniforme de 0.92 en la desafiante evaluación de rechazo.

Un análisis comparativo: Deepseek-R1 vs. OpenAI O1

Fortalezas de Deepseek-R1

Accesibilidad de código abierto: el marco de código abierto de Deepseek-R1 democratiza el acceso a capacidades avanzadas de IA, fomentando la innovación dentro de la comunidad de investigación.
Eficiencia de rentabilidad: el desarrollo de Deepseek-R1 aprovechó técnicas rentables, permitiendo su despliegue sin las barreras financieras a menudo asociadas con modelos patentados.
Excelencia técnica: GRPO y RL orientado al razonamiento han equipado Deepseek-R1 con habilidades de razonamiento de vanguardia, particularmente en matemáticas y codificación.
Destilación para modelos más pequeños: al destilar sus capacidades de razonamiento en modelos más pequeños, Deepseek-R1 expande su usabilidad. Ofrece un alto rendimiento sin demandas computacionales excesivas.

Fortalezas de OpenAi O1

Medidas de seguridad integrales: los modelos O1 de OpenAI priorizan la seguridad y el cumplimiento, haciéndolos confiables para aplicaciones de alto riesgo.
Capacidades generales: si bien Deepseek-R1 se centra en las tareas de razonamiento, los modelos O1 de OpenAI se destacan en diversas aplicaciones, incluida la escritura creativa, la recuperación de conocimiento e IA conversacional.

El debate de código abierto versus patentado

La aparición de Deepseek-R1 ha reavivado el debate sobre los méritos del desarrollo de IA de código abierto versus IA patentado. Los defensores de los modelos de código abierto argumentan que aceleran la innovación al agrupar la experiencia y los recursos colectivos. Además, promueven la transparencia, que es vital para la implementación ética de IA. Por otro lado, los modelos propietarios a menudo reclaman un rendimiento superior debido a su acceso a datos y recursos patentados. La competencia entre estos dos paradigmas representa un microcosmos de los desafíos más amplios en el panorama de la IA: equilibrar la innovación, la gestión de costos, la accesibilidad y las consideraciones éticas. Después del lanzamiento de Deepseek-R1, Marc Andreessen tuiteó en X, “Deepseek R1 es uno de los avances más sorprendentes e impresionantes que he visto, y como código abierto, un regalo profundo para el mundo”.

Conclusión

La aparición de Deepseek-R1 marca un momento transformador para la industria de IA de código abierto. Su naturaleza de código abierto, su rentabilidad y capacidades de razonamiento avanzado desafían el dominio de los sistemas propietarios y redefinen las posibilidades de innovación de IA. En paralelo, los modelos O1 de OpenAI establecen puntos de referencia de seguridad y capacidad general. Juntos, estos modelos reflejan la naturaleza dinámica y competitiva del panorama de IA.

Fuentes

Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

[Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de idiomas, incrustaciones y Lora ^{(Promocionado)}

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Conoce ‘altura’: la única herramienta de gestión de proyectos autónomos (patrocinada)

Noticias

La guerra de redes sociales de IA ha comenzado

Published

4 horas ago

3 junio, 2025

Sergio Villanueva

La carne de res de Sam Altman versus Elon Musk ahora es todo menos cortés. En febrero, Musk lanzó una granada de adquisición de $ 97.4 mil millones en Operai, a la que Altman respondió en X con un “No gracias, pero compraremos Twitter por $ 9.74 mil millones si lo desea”.

X no fue comprado, pero Altman está construyendo su competidor.

Operai ha estado dibujando su propio patio de recreo de estilo X durante meses, lo suficiente como para que los expertos ahora hablen sobre el lanzamiento de la nueva red social en términos de cuandono si.

En febrero, después de que Meta anunció planes para construir una aplicación independiente para que su asistente de IA rivalice con la aplicación Chatgpt, Altman volvió a disparar en X: “Está bien, tal vez hagamos una aplicación social”.

Luego se filtró el 15 de abril de que un prototipo interno de Operai que combina un feed social con las capacidades de generación de imágenes de Chatgpt estaba en revisión. Más fuentes fueron tan lejos como para confirmar que, más allá de este prototipo, Operai ahora estaba “considerando” un rival completo de X.

Esta red social empuja las tierras en un momento crucial cuando los modelos de IA se están volviendo comerciales, el monopolio de las redes sociales de Meta muestra signos de vulnerabilidad, y la integración de hardware está surgiendo como un diferenciador clave.

Al combinar tres elementos, una plataforma social construida de forma nativa para la IA, el diseñador tecnológico de clase mundial Jony Ive y los dispositivos complementarios especialmente diseñados, OpenAi se está posicionando en la intersección de las tres tendencias poderosas.

Si la compañía logra este juego de redes sociales con éxito, atrapará a otros gigantes tecnológicos de pie plano, tanto que estoy convencido de que estamos presenciando las primeras salvas de una revolución de las redes sociales en toda regla.

En lugar de simplemente conectar a los usuarios para compartir contenido, el prototipo de red social de OpenAI aparece diseñado para aprovechar la IA para mejorar el proceso de creación de contenido en sí. En lugar de “compartir y luego desplazarse”, la IA salta en el minuto uno para ayudar hacer el post.

Esto es similar a la integración de Grok de X: si lo ha usado, notará rápidamente que a la gente le encanta que la IA diga algo estúpido para que puedan compartir la salida y ver que su publicación se vuelve viral.

El equivalente aquí para OpenAI es aprovechar sus capacidades de generación de imágenes favoritas de los fanáticos en un entorno social. En la primera semana de la disponibilidad de la herramienta, más de 130 millones de usuarios de ChatGPT crearon más de 700 millones de imágenes. Esta adopción masiva indica un interés significativo de los usuarios en compartir contenido visual generado por IA, de la misma manera que las personas ya comparten contenido escrito generado por IA en X.

Sin embargo, lejos de ser otro clon X, la red social de OpenAi se perfila como algo completamente nuevo. Esto es lo que he reconstruido hasta ahora:

La creación de contenido asistida por AI-AI-AI-Capacidades de generación de imágenes de Chatgpt
Un feed social para compartir e interactuar con contenido generado por IA
Integración con las capacidades de IA existentes de OpenAI y potencialmente su base de usuarios
Guardacas de seguridad similares a las utilizadas en la generación de imágenes de Chatgpt

También es probable que haya un componente de hardware para la red.

El 21 de mayo, Openai anunció su adquisición de IO, una compañía de hardware fundada por el ex jefe de diseño de Apple, Jony Ive. El acuerdo, valorado en casi $ 6.5 mil millones en una transacción de todo el stock, lleva aproximadamente 55 ingenieros de hardware, desarrolladores de software y expertos en fabricación al redil OpenAI.

Los primeros dispositivos después de la adquisición se lanzarán en 2026, pero no serán reemplazos de teléfonos inteligentes. Se mencionaron algunos detalles sobre la tecnología, incluido que será de bolsillo, contextualmente consciente, sin pantalla y no un par de gafas inteligentes, en una llamada interna de OpenAI.

La conexión entre esta iniciativa de hardware y las ambiciones de redes sociales de OpenAI es estratégicamente significativa. Estoy convencido de que al desarrollar una plataforma social y dispositivos complementarios, OpenAi se está posicionando para crear un ecosistema totalmente integrado donde las experiencias sociales con IA se optimizan para el hardware especialmente diseñado.

Es el clásico libro de jugadas de Apple, solo esta vez el principio de organización es pura IA.

Además, si bien IVE no se unirá a OpenAi directamente, su firma de diseño, LoveFrom, continuará siendo independiente, la asociación verá Love de “Take Onge para todos los OpenAi, incluido su software”. La experiencia estética y de usuario de la red social de OpenAI, sin duda, se beneficiará de la reconocida sensibilidad de diseño de Ive.

“La IA es una tecnología increíble, pero las grandes herramientas requieren trabajo en la intersección de la tecnología, el diseño y la comprensión de las personas y el mundo”, dijo Altman en un comunicado anunciando la adquisición de IO.

El contramardo de IO de Google

Google es, sin duda, uno de los mayores competidores de Openai en el espacio de IA, y en I/O 2025 (casualmente celebrado el mismo día que OpenAI anunció la adquisición de IO), el gigante de la búsqueda presentó actualizaciones de IA significativas e impresionantes.

Dos grandes fueron la integración de Gemini en Chrome para los usuarios de escritorio y el anuncio del “modo de agente”, una característica experimental donde los usuarios simplemente pueden describir su objetivo final y Gemini puede trabajar de manera autónoma para lograrlo. Esta capacidad refleja el tipo de experiencia asistida por AI-AI que las fuentes dicen que OpenAi se está incorporando a su red social.

Según la publicación oficial de blog de E/S 2025 de Google, Gemini 2.5 Pro es ahora el modelo líder mundial en las tablas de clasificación Webdev Arena y Lmarena, y en base a mi experiencia personal utilizando los modelos de Google con puntos de referencia de rendimiento específicamente en la mente, están liderando en muchos aspectos. La publicación también señala que la aplicación Gemini ahora tiene más de 400 millones de usuarios activos mensuales, una base de usuarios lo suficientemente masiva como para ponerla en competencia directa con ChatGPT.

Sin embargo, si bien estos avances posicionan a Google como una amenaza para el creciente ecosistema de inteligencia artificial de Openii, también sugieren que la estrategia de la compañía es continuar mejorando sus productos existentes con IA en lugar de tratar de competir directamente en el espacio de redes sociales.

Un imperio debilitante

En cuanto al rey de ese espacio, meta, está avanzando con los esfuerzos para defender su territorio contra los avances de OpenAi.

Durante una llamada de ganancias del primer trimestre de 2025 el 30 de abril, el CEO Mark Zuckerberg describió una estrategia integral de IA. “Estamos haciendo un buen progreso en las gafas de IA y la meta ai, que ahora tiene casi mil millones de activos mensuales”, dijo Zuck a los inversores, según la transcripción de la llamada. Este hito pone al asistente de IA de Meta a la par de Géminis de Google en términos de adopción del usuario, y potencialmente antes de ChatGPT.

La familia de modelos de Meta’s Llama 4 ha visto una notable adopción, y Meta dijo en marzo de 2025 que Llama había alcanzado las 1 mil millones de descargas. El día antes de la llamada de ganancias, la compañía lanzó una aplicación Meta AI dedicada construida con Llama 4, llamándola “un primer paso para construir una IA más personal”. Esta aplicación independiente representa un desafío directo a ChatGPT y, por extensión, los planes de redes sociales de OpenAI.

Operai puede posicionarse como una alternativa fresca y nativa de AI a las experiencias sociales existentes de Meta.

Sin embargo, aunque sigue siendo dominante en el espacio de redes sociales, Meta muestra signos de vulnerabilidad.

La compañía parece firme en su creencia de que las experiencias sociales en última instancia abarcarán tanto los asistentes de IA como los mundos virtuales inmersivos, como lo demuestran su continua inversión en los mundos de horizonte. Esta visión de la realidad virtual social pronto puede competir directamente con las iniciativas de hardware y redes de hardware de Openai, pero la inversión aún no ha producido rendimientos significativos: en el primer trimestre de 2025, la División de Laboratorios VR de Meta informó otras pérdidas de $ 4.2 mil millones.

El pivote de Meta a la IA también sugiere una postura defensiva contra las amenazas emergentes, como OpenAi y Anthrope. Esto crea una apertura estratégica para la nueva red social de Openai: puede posicionarse como una alternativa nueva y nativa de AI a las plataformas heredadas de Meta y las experiencias sociales existentes, que se están modificando con capacidades de IA.

Antrópico como el retador

Hablando de antrópico, el día después de la salpicadura de Altman, el paisaje de IA se volvió aún más competitivo con la inauguración de la startup de Claude 4 y la introducción de dos nuevos modelos: Claude Opus 4 y Claude Sonnet 4.

“Claude Opus 4 es el mejor modelo de codificación del mundo, con un rendimiento sostenido en tareas complejas y de larga duración y flujos de trabajo de agentes”, compartió Anthrope en su anuncio de lanzamiento. La compañía respaldó este reclamo con impresionantes puntos de referencia: 72.5% de precisión en el punto de referencia de ingeniería de software y 43.2% en el banco terminal. He revisado los puntos de referencia y ya he usado Claude 4 en mi IDE para tareas de codificación compleja y estoy convencido de que estamos en un punto de inflexión para los modelos de codificación de IA.

Lo que hace que Claude 4 sea particularmente relevante para las ambiciones de las redes sociales de OpenAi es su capacidad mejorada de trabajar continuamente durante varias horas, una capacidad que podría permitir agentes de IA más sofisticados dentro de las plataformas sociales. Según Anthrope, Claude Opus 4 puede mantener el enfoque en las tareas que requieren “miles de pasos”, superando drásticamente los modelos anteriores.

Este lanzamiento de Claude 4 subraya una realidad estratégica crítica para OpenAI: los modelos de IA en sí mismos se están volviendo rápidamente comerciantes.

Con múltiples compañías que ahora ofrecen potentes capacidades de IA de última generación, la tecnología subyacente por sí sola ya no es un diferenciador suficiente. Esta mercantilización hace que el juego de red social de OpenAI sea cada vez más importante como una forma de crear una posición de mercado única y defendible. Controlando ambos modelos de IA y La plataforma social donde los usuarios interactúan con ellos, OpenAi puede crear un valor que va más allá de lo que es posible solo con los modelos.

Las apuestas sociales

Y luego están los datos. Siempre los datos.

Las interacciones de los usuarios en tiempo real son invaluables para capacitar a los futuros modelos de IA: son como el oro digital en un mundo ahora invadido por AI SLOP. Una red social proporciona a su propietario un suministro constante de estos datos, que solo se volverán más valiosos a medida que las capacidades del modelo base converjan entre los competidores.

X y Meta ya están obteniendo estos datos de capacitación únicos en tiempo real de sus redes. Operai lo necesita, y la adquisición de IO de Ive podría agregar un diseño de clase mundial y hardware dedicado a sus ofertas de redes sociales, ayudando a atraer a los usuarios.

A medida que los principales jugadores de inteligencia artificial, OpenAi, Google, Meta y Anthrope, continúan evolucionando sus estrategias y capacidades, las líneas entre asistentes de IA, redes sociales y dispositivos de hardware son cada vez más borrosos. Creo que estamos presenciando no solo mejoras incrementales en la tecnología de IA, sino también la aparición de una categoría completamente nueva de productos y experiencias que podrían remodelar fundamentalmente la forma en que interactuamos con las redes sociales.

Nos guste o no, los ojos de IA ahora están en nuestros feeds.

¡Nos encantaría saber de ti! Si tiene un comentario sobre este artículo o si tiene un consejo para una futura historia de Freethink, envíenos un correo electrónico a tips@freethink.com.

Noticias

Acabo de probar las versiones más recientes de Claude, Gemini, Deepseek y Chatgpt, y el ganador me sorprendió por completo

Published

9 horas ago

3 junio, 2025

Sergio Villanueva

Los chatbots de IA están evolucionando rápidamente con actualizaciones que ocurren constantemente de los nombres más familiares en Big Tech. Una vez más, Deepseek de China se encuentra entre los últimos en unirse a la carrera de primer nivel con un contexto de 128k, lo que significa que puede manejar conversaciones más largas y documentos más complejos.

Con la reciente actualización de su modelo R1, Deepseek se está posicionando como un competidor serio para Chatgpt, Claude y Gemini.

Si bien los puntos de referencia muestran un rendimiento superior, ¿cómo se acumula realmente en el uso del mundo real?

Para averiguarlo, puse cuatro de los modelos más nuevos (Claude 4, Gemini 2.5 Pro, ChatGPT-4O y Deepseek R1) a través de las mismas cinco indicaciones diseñadas para probar el razonamiento, la creatividad, la inteligencia emocional, los consejos de productividad y las habilidades de codificación. Los resultados revelan dónde brilla cada IA, y dónde tropiezan.

1. Razonamiento y planificación

(Crédito de la imagen: futuro)

Inmediato: “Le han dado un presupuesto de $ 5,000 para planificar un fin de semana de cumpleaños sorpresa para un joven de 40 años que ama las películas de senderismo, vino y ciencia ficción. El destino debe estar dentro de los Estados Unidos, y el evento debe incluir al menos tres actividades. Detalte su plan, explique su razonamiento y desglose el presupuesto”.

Veterano Diseñó una propuesta centrada en Napa Valley con un enfoque en el lujo cinematográfico. Mezcló el senderismo, las degustaciones de vinos y la ciencia ficción a través de las noches privadas de cine bajo las estrellas. El presupuesto ($ 4,760) incluyó derroches como Auberge du Soleil Dining mientras conservaba $ 240 por flexibilidad.

Géminis caminatas combinadas y degustaciones de vinos también con asentimientos experimentales como el Centro de Ciencias y Space & Science de Chabot y la fuente Yoda de Lucasfilm. El presupuesto asignó sabiamente $ 3,500 para costos centrales y reservó $ 1,500 para actualizaciones (por ejemplo, estadías de lujo o globos de aire caliente), enfatizando la flexibilidad y la escalabilidad sorpresa.

Tirar entregó un itinerario de Napa de alto lujo y cohesivo centrado en la indulgencia. Los aspectos más destacados incluyeron un recorrido en helicóptero sobre viñedos, un taller de mezcla de vinos, caminatas guiadas de secoyas y una proyección de ciencia ficción al aire libre bajo las estrellas. Si bien sus elementos de película eran elegantes, la integración de ciencia ficción carecía de una originalidad más profunda más allá de las proyecciones.

Chatgpt Ofreció un fin de semana de napa atmosférico y aerodinámico anclado por una caminata de Stargazing y un alquiler de cine privado. Su fuerza estaba en un ritmo simple y toques románticos como picnics de viñedos, pero la ejecución de ciencia ficción se inclinó fuertemente solo en las proyecciones de la película.

Ganador: Géminis gana con sus experiencias imaginativas de ciencia ficción y flexibilidad presupuestaria incorporada. Si bien todos los planes me dan ganas de empacar mis maletas para unas vacaciones increíbles, el equilibrio de la naturaleza de Gemini, el vino y la profundidad juguetona de ciencia ficción se sintieron más completas.

2. Codificación y depuración

(Crédito de la imagen: futuro)

Inmediato: “Escriba una función de Python que tome una lista de palabras y devuelva los 3 palíntromos más comunes (insensibles a los casos). Luego, explique su enfoque y cómo probaría los casos de borde”.

Veterano centrado en la eficiencia y el manejo explícito de los casos de borde. Si bien es conciso, omitió las funciones de ayudantes modulares y los ejemplos de pruebas detallados, priorizando la implementación limpia sobre la extensibilidad.

Géminis Incluyó una función auxiliar para cheques de palíndromo, omitidos explícitamente no hilos/cuerdas vacías y se usa la ruptura de la corbata lexicográfica. Puso un énfasis en la robustez, la documentación y el cumplimiento inmediato se destacó.

Tirar Haga hincapié en la flexibilidad y devolvió las tuplas del conteo de palíndromo en lugar de solo las palabras, desviándose de la solicitud. Las pruebas en el caso de los costos se demostraron a través de ejemplos, pero TIE-rompiendo no se abordó.

Chatgpt Optó por el minimalismo: una lógica de núcleo de cuatro líneas compacta. Se normalizó el caso pero se omitió la validación explícita para las cuerdas sin huellas/vacías, arriesgando errores con entradas de tipo mixto. El código en sí no implementó salvaguardas como el manejo de espacios blancos o la resolución de corbata determinista.

Ganador: Géminis gana En esta ronda porque es la única solución que maneja explícitamente todos los casos de borde (no huellas, cuerdas vacías, espacios en blanco). También es el más claro y proporciona el plan de prueba de costura de borde más completo.

3. Inteligencia emocional

(Crédito de la imagen: futuro)

Inmediato: Un amigo te envía mensajes de texto: “No creo que pueda hacer esto más”. Escribe tres versiones de una respuesta compasiva y útil:

Un breve y solidario

Uno alentador pero humorístico

Uno profundamente empático e ingenioso, incluidos consejos y recursos

Veterano Priorizado apoyo escalonado y precisión emocional. Todas las respuestas preservaron la agencia a través del lenguaje de invitación (“¿Podemos …?”), Y el nivel de recursos agradeció explícitamente la vulnerabilidad, un constructor de confianza crítico. Sin embargo, el humor podría fallar si la angustia del amigo es aguda.

Géminis entregó las respuestas más informadas clínicamente. El nivel ingenioso fue excepcional: soporte de crisis basado en texto (741741) priorizó la accesibilidad para usuarios ansiosos, y frases como “es un signo de fuerza” refirfrado la búsqueda de ayuda.

Tirar sobresalió en un cálido pragmatismo. Su toque más fuerte fue separar las necesidades inmediatas/de crisis (“En este momento, por favor, sé …”), pero omitir el soporte de crisis basado en texto fue una brecha.

Chatgpt ofreció brevedad y vinculación. La breve respuesta (“Estoy aquí … lo resolveremos”) fue casi perfecto, conciso pero centrado en la alianza. Su fuerza central era la eficiencia emocional (“usted es más importante de lo que sabes”), pero el andamio procesable se retrasó detrás de otros chatbots.

Ganador: Géminis gana. Dominó los tres tonos mientras centraba la agencia y la seguridad de los amigos.

4. Soporte de la vida real

(Crédito de la imagen: futuro)

Inmediato: “¿Cuáles son tres mejoras que podría hacer para aumentar la productividad y reducir el estrés? Sea específico”.

Veterano centrado en Hacks neurobiológicos con protocolos precisos. Se destacó con el momento respaldado por la ciencia y los recursos gratuitos, pero no logró asumir el conocimiento de fisiología básica

Géminis sugirió una descomposición de objetivos inteligentes para ayudar a abordar a abrumador antes de que comience.

Tirar ofrecía soluciones prácticas pero carecían de herramientas de estrés fisiológico, como ejercicios básicos de respiración. La respuesta tampoco incluía recomendaciones de recursos.

Chatgpt Brevedad priorizada, lo que hace que la respuesta sea ideal para las personas con poco tiempo. El chatbot era vago sobre cómo para identificar picos de energía.

Ganador: Deepseek gana por un cabello. El chatbot casó pasos procesables con neurociencia. Géminis fue un segundo muy cercano para la compasión y el replanteamiento paso a paso.

5. Creatividad

(Crédito de la imagen: futuro)

Inmediato: “Explique cómo capacitar un modelo de idioma grande es como criar a un niño, utilizando una metáfora extendida. Incluya al menos cuatro fases y anote los riesgos de” mala crianza “.

Veterano Mostró una clara progresión de 4 fases con términos técnicos tejidos naturalmente en la metáfora.

Tirar Fases etiquetadas creativamente con una fuerte analogía de cierre. Noté que los riesgos de “malos crías” no están tan bien vinculados por fase con los riesgos de fase 3 combinados.

Géminis Las fases vinculadas explícitamente con las etapas de entrenamiento, aunque era demasiado detallada: las fases se difuminan ligeramente y los riesgos carecen de resúmenes detallados.

Chatgpt entregó un tono simple y conversacional con emojis para agregar énfasis. Pero fue más ligero en la alineación técnica con la crianza de los hijos.

Ganador: Deepseek gana Para equilibrar la precisión técnica, la consistencia metafórica y el análisis de riesgos vívidos. Aunque el encuadre poético de Claude era un contendiente muy cercano.

Ganador general: Géminis

En un paisaje que evoluciona más rápido de lo que podemos rastrear completamente, todos estos modelos de IA muestran distinciones claras en cómo procesan, responden y empatan. Géminis se destaca en general, ganando en creatividad, inteligencia emocional y robustez, con una mezcla reflexiva de perspicacia práctica y matices humanos.

Deepseek demuestra que ya no es un contendiente de nicho, con fortalezas sorprendentes en el razonamiento científico y la claridad metafórica, aunque su rendimiento varía según la complejidad y el tono emocional de la solicitud.

Claude sigue siendo un solucionador de problemas poético con un fuerte razonamiento y calidez, mientras que ChatGPT sobresale con la simplicidad y la accesibilidad, pero a veces carece de precisión técnica.

Si esta prueba demuestra algo, es que ningún modelo es perfecto, pero cada uno ofrece una lente única sobre cómo la IA se está volviendo más útil, más humana y más competitiva a día.

Más de la guía de Tom

Volver a las computadoras portátiles

Noticias

Sora de OpenAI ahora está disponible de forma gratuita para todos los usuarios a través de Microsoft Bing Video Creator en Mobile

Published

14 horas ago

2 junio, 2025

Sergio Villanueva

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

El Sora de Openai fue uno de los lanzamientos más exagerados de la era de la IA, que se lanzará en diciembre de 2024, casi 10 meses después de que se previse por primera vez a reacciones asombrosas debido a que, al menos, al menos, un nivel de realismo sin precedentes, dinamismo de la cámara y adherencia rápida y clips de generación larga de 60 segundos.

Sin embargo, gran parte del brillo se ha desgastado como muchos otros generadores de videos de IA, desde startups de EE. UU. Hasta la pista de Luma y los competidores chinos Kling, Hailuo Minimax e Israel’s LTX Studio están ofreciendo modelos generativos de video de IA y aplicaciones para consumidores y usuarios empresariales que rivalizan o ya han superado la oferta de Openi. Además, todavía no hemos obtenido generaciones de 60 segundos de un solo mensaje SORA (que yo sepa, el máximo parece ser de 20 segundos).

Pero ahora Openai y su aliado/inversor/frenemy Microsoft están buscando llevar a Sora a muchos más usuarios, de forma gratuita (al menos durante algunas generaciones). Hoy, Microsoft anunció que Sora ahora se ofrece a través de su función Bing Video Creator en la aplicación móvil gratuita de Bing para iOS (Apple iPhone y App Store) y Android (Google Play Store).

Ese es un valor increíble, dado que para obtenerlo a través de ChatGPT y OpenAI, deberá pagar una suscripción CHATGPT Plus ($ 20 mensual) o Pro ($ 200 mensual).

Bing Video Creator con Sora es el último de una serie de ofertas impulsadas por la IA de Microsoft, después del lanzamiento de Bing Image Creator y Copilot.

https://www.youtube.com/watch?v=poxwxmja224

Como Microsoft Corporate Vicepresident (CVP) y Jefe de Search Jordi Ribas escribieron en X: “Hace dos años, Bing fue el primer producto en enviar creación de imágenes de forma gratuita para nuestros usuarios. Hoy, estoy emocionado de compartir que Bing Video Creator ahora está disponible en la aplicación Mobile de Bing, en todas partes que Bing Image Creator está disponible. Ven a la vida “.

Para presentar Bing Video Creator, Microsoft ha lanzado un anuncio de video promocional (incrustado arriba) que muestra cómo la herramienta da vida a ideas creativas.

El anuncio demuestra que los usuarios escriben indicaciones como “Crear un colibrí que aletea sus alas en cámara ultra lenta”, “una tortuga que se desplaza lentamente a través de un cañón de coral de neón” y “un pequeño astronauta que explora un planeta de hongos gigantes”. La IA luego genera videoclips cortos y vibrantes basados en estas indicaciones.

El video enfatiza lo fácil que es crear y compartir estos videos, incluido un ejemplo del video de astronauta que se comparte en un chat y recibe reacciones positivas.

Creaciones de video verticales de 5 segundos gratis en dispositivos móviles, con videos horizontales próximamente

Bing Video Creator convierte las indicaciones de texto en videos generados por IA de cinco segundos. Todavía no es compatible con las generaciones de texto a video o video a video (que muchos otros generadores de videos de IA rivales, incluida la implementación de SORA de OpenAI).

Para usar la herramienta, los usuarios pueden abrir la aplicación móvil Bing, toque el menú en la esquina inferior derecha y seleccione “Video Creator”.

Alternativamente, puede iniciar el proceso de creación de video escribiendo una solicitud directamente en la barra de búsqueda de Bing en la aplicación, lo que es lo que es “crear un video de …”

Una vez que se ingresa el mensaje, Bing Video Creator genera un video corto basado en la descripción.

Por ejemplo, un aviso como “En un concurrido restaurante de pizza italiano, una pequeña nutria funciona como chef y usa un sombrero de chef y un delantal. Amasa la masa con sus patas y está rodeado de otros ingredientes de pizza”, resultaría en un video de cinco segundos de cinco segundos atractivo.

Actualmente, los videos están disponibles en 9:16 Formato de retrato, es decir, vertical, perfecto para los pantalones cortos de Tiktok y YouTube, aunque Microsoft lo dice en su publicación de blog de anuncios que una opción de relación de aspecto de 16: 9 también conocida como paisaje u horizontal está “llegando pronto”.

Los usuarios pueden hacer cola hasta tres generaciones de video a la vez, y cada creación se almacena por hasta 90 días. Una vez que un video está listo, se puede descargar, compartir por correo electrónico o redes sociales, o acceder a través de un enlace directo.

Bing Video Creator estará disponible en todo el mundo hoy, excepto China y Rusia. Ahora está disponible en la aplicación móvil de Bing, y también se dice que la búsqueda de escritorio y copilotos se lanzarán “pronto”.

Gratis para usar para 10 generaciones rápidas, generaciones lentas ilimitadas

Bing Video Creator es gratuito para todos los usuarios.

A cada usuario se le permiten diez generaciones de video “rápidas”, que pueden crear videos en segundos.

Después de usarlos, los usuarios pueden continuar con las generaciones de velocidad estándar, lo que lleva minutos, sin costo, o canjea 100 puntos de recompensas de Microsoft por cada creación rápida adicional.

Esos puntos de recompensa provienen del programa gratuito de opción de Microsoft que permite a los usuarios ganar puntos para las actividades cotidianas, como buscar con Bing, comprar en la tienda de Microsoft o jugar con Xbox Game Pass.

Para participar, los usuarios deben iniciar sesión con una cuenta de Microsoft y activar su tablero de recompensas aquí.

Más allá de los divertidos videos y publicaciones en redes sociales, Bing Video Creator se posiciona como una herramienta para mejorar la comunicación cotidiana y la creatividad. El anuncio de Bing alienta a los usuarios a crear videos para celebrar momentos especiales, probar ideas creativas y comunicarse de manera más efectiva.

Para ayudar a los usuarios a obtener los mejores resultados, Bing sugiere proporcionar indicaciones descriptivas, incorporar un lenguaje orientado a la acción y experimentar con tono y estilo, como la estética cinematográfica o juguetona.

AI y seguridad responsables, incorporado

Microsoft dice que Bing Video Creator está diseñado de acuerdo con sus principios de IA responsables, aprovechando los estándares C2PA para las credenciales de contenido para ayudar a identificar contenido generado por AI.

La herramienta también incluye características de moderación que bloquean automáticamente las indicaciones que podrían generar videos dañinos o inseguros.

Implicaciones para empresas y tomadores de decisiones técnicas

Aunque Bing Video Creator se enmarca actualmente como una herramienta centrada en el consumidor, su tecnología y capacidades subyacentes podrían tener implicaciones interesantes para los usuarios empresariales, particularmente aquellos involucrados en la orquestación de IA, la ingeniería de datos y el despliegue del modelo de IA.

Para los ingenieros de IA responsables de implementar y ajustar modelos de idiomas grandes, Bing Video Creator destaca la creciente madurez del video de IA generativo más allá de los modelos basados en texto. Si bien no es un producto empresarial en sí, la tecnología detrás de este podría inspirar nuevas formas de incorporar la generación de videos en los flujos de trabajo comerciales, como crear resúmenes de video automatizados, contenido de capacitación o materiales de marketing.

Para los profesionales que orquestan tuberías de IA escalables, Bing Video Creator muestra una aplicación práctica de video generativo que podría influir en cómo las empresas piensan sobre la implementación de estos modelos a escala. La facilidad de uso y la capacidad de respuesta rápida de la herramienta sugieren posibles aplicaciones futuras dentro de los flujos de trabajo empresariales, ya sea para capacitación interna, ideación creativa o participación del cliente.

Los ingenieros de datos pueden ver la simplicidad y la compartimiento del creador de video de Bing como una demostración de cómo la IA puede hacer que las ideas complejas basadas en datos sean más accesibles. Si bien estos videos de grado de consumo son breves y enfocados visualmente, se podría adaptar tecnología similar en el futuro para convertir conjuntos de datos complejos o resultados del proyecto en narraciones de video cortas y atractivas que resuenan con audiencias no técnicas.

Bing Video Creator es parte del impulso continuo de Bing para democratizar la creatividad de la IA. Si bien aún no se sabe sobre las características más allá del soporte de video de paisajes, Bing dice que continuará refinando y expandiendo la experiencia a medida que más usuarios comiencen a explorar la generación de videos.

Para aquellos listos para probarlo, Bing invita a los usuarios a descargar la aplicación móvil Bing y comenzar a crear videos hoy.

Para obtener más información sobre Bing Video Creator y cómo comenzar a obtener puntos de recompensas de Microsoft para una creación de video aún más rápida, visite aquí.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.