Connect with us

Noticias

Cada vez es más difícil medir qué tan buena es la IA

Published

on

Hacia finales de 2024, ofrecí una opinión sobre todo lo que se hablaba sobre si las “leyes de escala” de la IA estaban chocando contra un muro técnico en la vida real. Sostuve que la pregunta importa menos de lo que muchos piensan: existen sistemas de IA lo suficientemente poderosos como para cambiar profundamente nuestro mundo, y los próximos años estarán definidos por el progreso en la IA, se cumplan o no las leyes de escala.

Siempre es arriesgado hacer pronósticos sobre la IA, porque se puede demostrar que estás equivocado muy rápidamente.. Ya es bastante vergonzoso como escritor cuando sus predicciones para el próximo año no se cumplen. Cuando tus predicciones para el próximo semana ¿Se ha demostrado que son falsos? Eso es bastante malo.

Pero menos de una semana después de escribir ese artículo, la serie de lanzamientos de fin de año de OpenAI incluyó su último modelo de lenguaje grande (LLM), o3. o3 no exactamente desmiente las afirmaciones de que las leyes de escala que solían definir el progreso de la IA ya no funcionan tan bien en el futuro, pero definitivamente desmiente la afirmación de que el progreso de la IA está chocando contra una pared.

O3 es realmente impresionante. De hecho, para apreciar lo impresionante que es, tendremos que hacer una pequeña digresión en la ciencia de cómo medimos los sistemas de IA.

Pruebas estandarizadas para robots

Si desea comparar dos modelos de lenguaje, desea medir el desempeño de cada uno de ellos en un conjunto de problemas que no han visto antes. Eso es más difícil de lo que parece: dado que estos modelos reciben enormes cantidades de texto como parte del entrenamiento, ya han visto la mayoría de las pruebas antes.

Entonces, lo que hacen los investigadores de aprendizaje automático es crear puntos de referencia, pruebas para sistemas de inteligencia artificial que nos permitan compararlos directamente entre sí y con el desempeño humano en una variedad de tareas: matemáticas, programación, lectura e interpretación de textos, lo que sea. Durante un tiempo, probamos las IA en la Olimpíada de Matemáticas de Estados Unidos, en un campeonato de matemáticas y en problemas de física, biología y química.

El problema es que las IA han mejorado tan rápido que siguen haciendo que los puntos de referencia sean inútiles. Una vez que una IA se desempeña lo suficientemente bien en un punto de referencia, decimos que el punto de referencia está “saturado”, lo que significa que ya no es útil distinguir qué tan capaces son las IA, porque todas obtienen puntuaciones casi perfectas.

2024 fue el año en el que un punto de referencia tras otro para las capacidades de IA se saturó tanto como el Océano Pacífico. Solíamos probar las IA con respecto a un punto de referencia de física, biología y química llamado GPQA que era tan difícil que incluso los estudiantes de doctorado en los campos correspondientes generalmente obtenían menos del 70 por ciento. Pero las IA ahora funcionan mejor que los humanos con doctorados relevantes, por lo que no es una buena manera de medir futuros avances.

También en la clasificación para la Olimpiada de Matemáticas, los modelos se desempeñan ahora entre los mejores humanos. Un punto de referencia llamado MMLU estaba destinado a medir la comprensión del lenguaje con preguntas en muchos dominios diferentes. Los mejores modelos también lo han saturado. Se suponía que un punto de referencia llamado ARC-AGI sería realmente difícil y mediría la inteligencia humana general, pero o3 (cuando está sintonizado para la tarea) logra una explosiva cifra del 88 por ciento.

Siempre podemos crear más puntos de referencia. (Lo estamos haciendo: ARC-AGI-2 se anunciará pronto y se supone que será mucho más difícil). Pero al ritmo que avanzan las IA, cada nuevo punto de referencia solo dura unos pocos años, en el mejor de los casos. Y quizás lo más importante para aquellos de nosotros que no somos investigadores de aprendizaje automático es que los puntos de referencia tienen que medir cada vez más el desempeño de la IA en tareas que los humanos no podrían realizar por sí mismos para describir de qué son y de qué no son capaces.

Sí, las IA todavía cometen errores estúpidos y molestos. Pero si han pasado seis meses desde que prestaste atención, o si solo has jugado con las versiones gratuitas de modelos de lenguaje disponibles en línea, que están muy por detrás de la frontera, estás sobreestimando cuántos errores estúpidos y molestos cometen, y subestimar su capacidad para realizar tareas difíciles e intelectualmente exigentes.

Esta semana en Time, Garrison Lovely argumentó que el progreso de la IA no “chocó contra una pared” sino que se volvió invisible, principalmente mejorando a pasos agigantados en formas a las que la gente no presta atención. (Nunca he intentado que una IA resuelva problemas de programación de élite o de biología, matemáticas o física, y de todos modos no podría decir si era correcto).

Cualquiera puede notar la diferencia entre un niño de 5 años que aprende aritmética y un estudiante de secundaria que aprende cálculo, por lo que el progreso entre esos puntos parece y se siente tangible. La mayoría de nosotros realmente no podemos distinguir entre un estudiante de primer año de matemáticas y los matemáticos más genios del mundo, por lo que el progreso de la IA entre esos puntos no ha parecido gran cosa.

Pero ese progreso es, en realidad, un gran problema. La forma en que la IA realmente cambiará nuestro mundo es automatizando una enorme cantidad de trabajo intelectual que alguna vez fue realizado por humanos, y tres cosas impulsarán su capacidad para lograrlo.

Uno cada vez es más barato. o3 obtiene resultados sorprendentes, pero puede costar más de 1.000 dólares pensar en una pregunta difícil y encontrar una respuesta. Sin embargo, el lanzamiento de fin de año del DeepSeek de China indicó que podría ser posible obtener un rendimiento de alta calidad a muy bajo costo.

El segundo son las mejoras en la forma en que interactuamos con él. Todas las personas con las que hablo sobre productos de IA confían en que hay toneladas de innovación por lograr en la forma en que interactuamos con las IA, cómo verifican su trabajo y cómo configuramos qué IA usar para cada tarea. Podría imaginarse un sistema en el que normalmente un chatbot de nivel medio hace el trabajo pero puede llamar internamente a un modelo más caro cuando su pregunta lo necesita. Todo esto es trabajo de producto versus puro trabajo técnico, y es lo que advertí en diciembre que transformaría nuestro mundo incluso si se detuviera todo el progreso de la IA.

Y el tercero es que los sistemas de inteligencia artificial se vuelven más inteligentes y, a pesar de todas las declaraciones sobre chocar contra las paredes, parece que todavía lo están haciendo. Los sistemas más nuevos son mejores para razonar, mejores para resolver problemas y, en general, están más cerca de ser expertos en una amplia gama de campos. Hasta cierto punto, ni siquiera sabemos qué tan inteligentes son porque todavía estamos luchando por descubrir cómo medirlo una vez que ya no seamos capaces de usar pruebas contra la experiencia humana.

Creo que estas son las tres fuerzas que definirán los próximos años: así de importante es la IA. Nos guste o no (y a mí tampoco me gusta mucho; no creo que esta transición que cambiará el mundo se esté manejando de manera responsable en absoluto), ninguno de los tres está chocando contra una pared, y cualquiera de los tres lo haría. ser suficiente para cambiar de forma duradera el mundo en el que vivimos.

Una versión de esta historia apareció originalmente en el boletín Future Perfect. ¡Regístrate aquí!

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La ronda de financiamiento de $ 40 mil millones de OpenAI desafía el momento profundo y cements su dominance de IA

Published

on

La semana pasada, los procesadores de GPU de Openai “derretidos”, como lo expresaron el fundador y CEO Sam Altman. La razón: el modelo actualizado de generación de imágenes de la compañía, integrado en CHATGPT, entregó un salto significativo en las capacidades de comprensión, entrada y salida en comparación con modelos similares en el mercado. En poco tiempo, el modelo encendió un fenómeno en línea, con usuarios que generan versiones de imágenes familiares al estilo del legendario estudio de animación Ghibli. La demanda del software era tan alta que Openai se vio obligada a imponer restricciones de uso, a pesar de que el modelo estaba disponible solo para pagar a los usuarios.

Este evento ofrece una explicación clara de por qué, incluso después de que el momento profundo de Deepseek sacudió la industria de la IA en enero, los inversores siguen seguros de que el dominio de OpenAI no es cuestionado. ¿Qué tan seguro? Lo suficientemente seguro de respaldar a la compañía con una ronda de financiación récord de $ 40 mil millones, valorando a Openai en $ 300 mil millones después del dinero.

1 Ver galería

מנכ"ל OpenAi סם אלטמן 2023

Sam Altman

(Foto: Joel Saget/AFP)

Anunciado el martes, la ronda casi duplica la valoración de Operai de su aumento anterior y es el más grande para una empresa privada. Según OpenAI, los fondos acelerarán el desarrollo de la inteligencia general artificial (AGI). “[The funding] Nos permite impulsar las fronteras de la investigación de IA aún más, escalar nuestra infraestructura de cómputo y ofrecer herramientas cada vez más poderosas para los 500 millones de personas que usan CHATGPT cada semana “, dijo la compañía en un comunicado de prensa.” Estamos emocionados de trabajar en asociación con SoftBank Group: las compañías completan cómo escalar tecnología transformadora como lo hacen. Su apoyo nos ayudará a continuar construyendo sistemas de IA que impulsen el descubrimiento científico, permitan la educación personalizada, mejoren la creatividad humana y allanen el camino hacia AGI que beneficie a toda la humanidad “.

La ronda está dirigida por el SoftBank de Japón, el socio clave de OpenAI en el Proyecto Stargate, una ambiciosa iniciativa para construir una infraestructura informática de IA en los Estados Unidos con una inversión total de $ 500 mil millones. Según Bloomberg, en la primera fase, SoftBank invertirá $ 7.5 mil millones, mientras que un sindicato de inversores, incluidos Microsoft, Coatue Management, Altimeter Capital Management y Thrive Capital, contribuirá con $ 2.5 mil millones. La segunda fase, que cerrará a fin de año, hará que SoftBank invierta otros $ 22.5 mil millones, con el sindicato de inversores agregando $ 7.5 mil millones. Las conversaciones también están en marcha con el capital de Magnetar de Peter Thiel y los fundadores para unirse al sindicato.

La inversión completa de SoftBank depende de que Operai complete su transición a una estructura con fines de lucro para fin de año (actualmente está controlada por una organización sin fines de lucro). Si la transición no se completa, SoftBank tendrá la opción de reducir su inversión de $ 30 mil millones a $ 20 mil millones, lo que permite a OpenAI buscar inversores adicionales para cerrar la brecha.

Al finalizar la ronda de financiación, OpenAI se convertirá en la segunda compañía privada respaldada por la empresa más grande del mundo por capitalización de mercado, según la firma de investigación Pitchbook. Solo seguirá el SpaceX de Elon Musk, valorado en $ 350 mil millones, y superará a la empresa matriz de Tiktok Bytedance, que está valorada en $ 220 mil millones. La ronda de $ 40 mil millones también es la cantidad más grande jamás recaudada en una sola ronda por una empresa privada, eclipsando el récord anterior establecido por el grupo de hormigas de China, que recaudó $ 14 mil millones en 2018.

The Deepseek Moment: Un desafío que no pudo sacudir OpenAi

Hace solo dos meses, un aumento tan ambicioso parecía mucho menos seguro. El 20 de enero, la compañía china Deepseek presentó su modelo de razonamiento R1 AI, que ofreció un rendimiento comparable a los modelos líderes de OpenAI y sus competidores, pero según los informes, a una fracción de la potencia y el costo informático. Esta revelación envió ondas de choque a través de la industria de la IA (NVIDIA, por ejemplo, vio una pérdida de $ 1 billón en la capitalización de mercado), lo que generó dudas sobre la estrategia de alto costo que OpenAi había seguido.

El dominio de OpenAI se ha basado en inversiones masivas en desarrollo de modelos, capacitación e implementación, mejor ejemplificado por el ambicioso proyecto Stargate. La ventaja competitiva de la compañía también se ha basado en ensamblar un equipo de investigación de IA de primer nivel capaz de producir avances de vanguardia. Sin embargo, el momento de Deepseek calificó esta estrategia: si una empresa china relativamente pequeña podría lograr resultados similares con mucha menos inversión, el foso competitivo de OpenAi parecía estar en riesgo. Lógicamente, su valoración debería haber disminuido. En cambio, con la última ronda, Operai casi ha duplicado su valoración en solo seis meses.

Tres factores clave explican por qué los inversores siguen siendo optimistas en OpenAi a pesar del desafío Deepseek:

1. Las capacidades de Deepseek pueden haber sido exageradas. Después de que el bombo inicial se desvaneció, quedó claro que los costos de desarrollo de Deepseek no eran tan bajos como se creía inicialmente. Además, hay indicios de que Deepseek puede haber aprovechado los propios modelos de OpenAI en su desarrollo, lo que el gobierno de los Estados Unidos ha referido como robo de propiedad intelectual. Si esto es cierto, Operai puede tomar medidas para bloquear la explotación futura, reforzando su foso.

2. Confianza de los inversores en el liderazgo de Altman y OpenAi. La fortaleza financiera de Operai es solo una parte de su éxito; Su equipo de liderazgo, dirigido por Altman, es igualmente crucial. Los inversores confían en la capacidad del equipo para adaptarse a los cambios de mercado, como incorporar métodos de capacitación más baratos mientras asignan el poder informático a tareas más avanzadas.

3. La interrupción de Deepseek en realidad puede beneficiarse de OpenAi. Al demostrar que los modelos de IA pueden ser entrenados de manera más eficiente, Deepseek ha aumentado la demanda general del mercado de IA avanzada. Los inversores creen que Openai está mejor posicionado para capitalizar esta demanda, aprovechando tanto sus modelos existentes como sus iteraciones futuras desarrolladas con métodos más eficientes inspirados en el enfoque de Deepseek.

La revolución de IA que OpenAi encendió hace dos años y medio ahora se está acelerando aún más, y los inversores están convencidos de que la compañía permanecerá a la vanguardia. Su voto de confianza de $ 40 mil millones lo dice todo.

Continue Reading

Noticias

El plan de Google para robar la cuota de mercado de Chatgpt se trata de nivel gratuito de Gemini

Published

on

No es ningún secreto que OpenAi salió, bueno, a todos cuando lanzó Chatgpt hace más de dos años. Ahora, a medida que compañías como Google y Apple intentan competir, están comenzando detrás de Openai, al menos a los ojos del público. ¿Qué tan grande tiene la ventaja de la cabeza? A partir de marzo de 2025, ChatGPT tiene 700 millones de usuarios activos mensuales, lo cual es un total asombroso.

Eso no significa que Google sea impotente en la lucha contra OpenAI para la mayor parte de la participación de mercado de IA de grado de consumo. En los años transcurridos desde que se lanzó ChatGPT, Google aumentó el desarrollo de IA primero a través de Bard, más tarde renombrado Gemini. Mientras que el plan de Openai para monetizar el chatgpt implicó hacer un montón de características tempranas gratuitas y bloquear las avanzadas detrás de un muro de pago, Google está haciendo lo contrario.

Continue Reading

Noticias

Di de Chatgpt y Gemini 5 Image Solts, aquí está quién ganó

Published

on

Tanto Chatgpt como Gemini se consideran entre los mejores generadores de imágenes de IA. Con ambos modelos, puedes describir una escena y verla cobrar vida en segundos. Pero no todos los generadores de imágenes son creados iguales.

Para ver cómo se comparan, le di a ambas plataformas exactamente las mismas cinco indicaciones, desde la fantasía hasta el fotorrealismo, y evalué cómo cada IA ​​respondió en términos de creatividad, detalle y qué tan bien interpretaron el informe.

Continue Reading

Trending