Hacia finales de 2024, ofrecí una opinión sobre todo lo que se hablaba sobre si las “leyes de escala” de la IA estaban chocando contra un muro técnico en la vida real. Sostuve que la pregunta importa menos de lo que muchos piensan: existen sistemas de IA lo suficientemente poderosos como para cambiar profundamente nuestro mundo, y los próximos años estarán definidos por el progreso en la IA, se cumplan o no las leyes de escala.
Noticias
Cada vez es más difícil medir qué tan buena es la IA
Published
2 meses agoon

Siempre es arriesgado hacer pronósticos sobre la IA, porque se puede demostrar que estás equivocado muy rápidamente.. Ya es bastante vergonzoso como escritor cuando sus predicciones para el próximo año no se cumplen. Cuando tus predicciones para el próximo semana ¿Se ha demostrado que son falsos? Eso es bastante malo.
Pero menos de una semana después de escribir ese artículo, la serie de lanzamientos de fin de año de OpenAI incluyó su último modelo de lenguaje grande (LLM), o3. o3 no exactamente desmiente las afirmaciones de que las leyes de escala que solían definir el progreso de la IA ya no funcionan tan bien en el futuro, pero definitivamente desmiente la afirmación de que el progreso de la IA está chocando contra una pared.
O3 es realmente impresionante. De hecho, para apreciar lo impresionante que es, tendremos que hacer una pequeña digresión en la ciencia de cómo medimos los sistemas de IA.
Pruebas estandarizadas para robots
Si desea comparar dos modelos de lenguaje, desea medir el desempeño de cada uno de ellos en un conjunto de problemas que no han visto antes. Eso es más difícil de lo que parece: dado que estos modelos reciben enormes cantidades de texto como parte del entrenamiento, ya han visto la mayoría de las pruebas antes.
Entonces, lo que hacen los investigadores de aprendizaje automático es crear puntos de referencia, pruebas para sistemas de inteligencia artificial que nos permitan compararlos directamente entre sí y con el desempeño humano en una variedad de tareas: matemáticas, programación, lectura e interpretación de textos, lo que sea. Durante un tiempo, probamos las IA en la Olimpíada de Matemáticas de Estados Unidos, en un campeonato de matemáticas y en problemas de física, biología y química.
El problema es que las IA han mejorado tan rápido que siguen haciendo que los puntos de referencia sean inútiles. Una vez que una IA se desempeña lo suficientemente bien en un punto de referencia, decimos que el punto de referencia está “saturado”, lo que significa que ya no es útil distinguir qué tan capaces son las IA, porque todas obtienen puntuaciones casi perfectas.
2024 fue el año en el que un punto de referencia tras otro para las capacidades de IA se saturó tanto como el Océano Pacífico. Solíamos probar las IA con respecto a un punto de referencia de física, biología y química llamado GPQA que era tan difícil que incluso los estudiantes de doctorado en los campos correspondientes generalmente obtenían menos del 70 por ciento. Pero las IA ahora funcionan mejor que los humanos con doctorados relevantes, por lo que no es una buena manera de medir futuros avances.
También en la clasificación para la Olimpiada de Matemáticas, los modelos se desempeñan ahora entre los mejores humanos. Un punto de referencia llamado MMLU estaba destinado a medir la comprensión del lenguaje con preguntas en muchos dominios diferentes. Los mejores modelos también lo han saturado. Se suponía que un punto de referencia llamado ARC-AGI sería realmente difícil y mediría la inteligencia humana general, pero o3 (cuando está sintonizado para la tarea) logra una explosiva cifra del 88 por ciento.
Siempre podemos crear más puntos de referencia. (Lo estamos haciendo: ARC-AGI-2 se anunciará pronto y se supone que será mucho más difícil). Pero al ritmo que avanzan las IA, cada nuevo punto de referencia solo dura unos pocos años, en el mejor de los casos. Y quizás lo más importante para aquellos de nosotros que no somos investigadores de aprendizaje automático es que los puntos de referencia tienen que medir cada vez más el desempeño de la IA en tareas que los humanos no podrían realizar por sí mismos para describir de qué son y de qué no son capaces.
Sí, las IA todavía cometen errores estúpidos y molestos. Pero si han pasado seis meses desde que prestaste atención, o si solo has jugado con las versiones gratuitas de modelos de lenguaje disponibles en línea, que están muy por detrás de la frontera, estás sobreestimando cuántos errores estúpidos y molestos cometen, y subestimar su capacidad para realizar tareas difíciles e intelectualmente exigentes.
Esta semana en Time, Garrison Lovely argumentó que el progreso de la IA no “chocó contra una pared” sino que se volvió invisible, principalmente mejorando a pasos agigantados en formas a las que la gente no presta atención. (Nunca he intentado que una IA resuelva problemas de programación de élite o de biología, matemáticas o física, y de todos modos no podría decir si era correcto).
Cualquiera puede notar la diferencia entre un niño de 5 años que aprende aritmética y un estudiante de secundaria que aprende cálculo, por lo que el progreso entre esos puntos parece y se siente tangible. La mayoría de nosotros realmente no podemos distinguir entre un estudiante de primer año de matemáticas y los matemáticos más genios del mundo, por lo que el progreso de la IA entre esos puntos no ha parecido gran cosa.
Pero ese progreso es, en realidad, un gran problema. La forma en que la IA realmente cambiará nuestro mundo es automatizando una enorme cantidad de trabajo intelectual que alguna vez fue realizado por humanos, y tres cosas impulsarán su capacidad para lograrlo.
Uno cada vez es más barato. o3 obtiene resultados sorprendentes, pero puede costar más de 1.000 dólares pensar en una pregunta difícil y encontrar una respuesta. Sin embargo, el lanzamiento de fin de año del DeepSeek de China indicó que podría ser posible obtener un rendimiento de alta calidad a muy bajo costo.
El segundo son las mejoras en la forma en que interactuamos con él. Todas las personas con las que hablo sobre productos de IA confían en que hay toneladas de innovación por lograr en la forma en que interactuamos con las IA, cómo verifican su trabajo y cómo configuramos qué IA usar para cada tarea. Podría imaginarse un sistema en el que normalmente un chatbot de nivel medio hace el trabajo pero puede llamar internamente a un modelo más caro cuando su pregunta lo necesita. Todo esto es trabajo de producto versus puro trabajo técnico, y es lo que advertí en diciembre que transformaría nuestro mundo incluso si se detuviera todo el progreso de la IA.
Y el tercero es que los sistemas de inteligencia artificial se vuelven más inteligentes y, a pesar de todas las declaraciones sobre chocar contra las paredes, parece que todavía lo están haciendo. Los sistemas más nuevos son mejores para razonar, mejores para resolver problemas y, en general, están más cerca de ser expertos en una amplia gama de campos. Hasta cierto punto, ni siquiera sabemos qué tan inteligentes son porque todavía estamos luchando por descubrir cómo medirlo una vez que ya no seamos capaces de usar pruebas contra la experiencia humana.
Creo que estas son las tres fuerzas que definirán los próximos años: así de importante es la IA. Nos guste o no (y a mí tampoco me gusta mucho; no creo que esta transición que cambiará el mundo se esté manejando de manera responsable en absoluto), ninguno de los tres está chocando contra una pared, y cualquiera de los tres lo haría. ser suficiente para cambiar de forma duradera el mundo en el que vivimos.
Una versión de esta historia apareció originalmente en el boletín Future Perfect. ¡Regístrate aquí!
You may like
Noticias
Estoy usando chatgpt, copilot y gemini para encontrar nuevas aplicaciones de Android
Published
40 minutos agoon
23 marzo, 2025
Todavía encuentro que la incorporación de IA en mi trabajo diario es ligeramente incómodo, incluso si tiene algunos casos de uso probados que lo hacen útil. Para poner esto a prueba, decidí usar AI para solucionar un problema subyacente que tengo en la tienda Google Play: utilicé Google Gemini, Microsoft Copilot y ChatGPT para ayudarme a descubrir nuevas aplicaciones. De esa manera, puedo afeitarme el tiempo que paso explorando Reddit y X para nuevas aplicaciones de Android para probar mi confiable Samsung.
Experimenté usando Gemini, Copilot y Chatgpt. Tenía curiosidad sobre cuál de los tres me ofrecería más variedad en opciones y si estos chatbots reconocerían solicitudes específicas como “aplicaciones gratuitas solamente”. Aquí están los resultados que encontré.
Relacionado
Google ha hecho que buscar en la tienda de Play sea tan frustrante que ya ni siquiera me molesto
Arregla tu tienda, Google
Enumeré las recomendaciones de la aplicación para cada chatbot de IA e incluí el número de descarga en la tienda Google Play entre paréntesis para medir la popularidad. Mi esperanza es descubrir nuevas aplicaciones que no necesariamente aparezcan en los resultados de búsqueda inmediatos de Play Store/menos populares.
Experimento 1: Encontrar nuevas aplicaciones de actualización del clima
Aviso utilizado:
Hi [AI]! I'd like to find a new Android app that can tell me the weekly and daily weather forecast. Please give me free apps only.
ChatGPT recomienda:
-
Accuweather (100m+)
-
El canal meteorológico (100m+)
-
Clima subterráneo (10m+)
-
Viento (10m+)
-
Google Weather (1+)
-
1weather (100m+)
Copilot recomienda:
-
1weather (100m+)
-
FlowX (500k+)
-
El canal meteorológico (100m+)
-
Accuweather (100m+)
-
Clima impresionante – Yowindow (10m+)
Géminis recomienda:
-
Accuweather (100m+)
-
El canal meteorológico (100m+)
-
Weathercan (500k+)
Comparando los tres modelos, ChatGPT salió en la cima cuantitativamente. Chatgpt me dio seis recomendaciones, Copilot tenía cinco, y Gemini solo dio tres. Otra nota es que me gustó que Gemini considerara mi ubicación (incluso si es un poco espeluznante) proporcionar una recomendación más relevante. De lo contrario, la lista de aplicaciones de los tres era bastante segura.
El resultado final
ChatGPT reconoció qué aplicaciones meteorológicas eran gratuitas o gratuitas con soporte de anuncios. Pero también dio una lista genérica de las mejores aplicaciones del clima, que no quería. Por otro lado, Copilot especificó si estas aplicaciones eran gratuitas en las dos primeras entradas pero luego se detuvieron. Sin embargo, proporcionó un abastecimiento, por lo que podría confirmar el contexto (a diferencia de los otros dos chatbots). Géminis me dio una recomendación interesante adaptada a mi ubicación (Weathercan). Pero tampoco especificó ningún precio de aplicación. En general, la experiencia estuvo bien. Todavía prefiero la selección de Copilot debido a que 3/5 es nuevo.

Experimento 2: Encontrar nuevas aplicaciones de toma de notas
Aviso utilizado:
Hi [AI], I am in need of a new note-taking app. I would prefer if it included a place to import PDF documents and had a handwriting mode. I would also like an option for online storage syncing.
ChatGPT recomienda:
-
Notabilidad (no en Play Store)
-
Goodnotes (1m+)
-
Microsoft OneNote (500m+)
-
Evernote (100m+)
-
Notebook Zoho (5m+)
-
Xodo (10m+)
Copilot recomienda:
-
Goodnotes (1m+)
-
Notabilidad (no en Play Store)
-
Microsoft OneNote (500m+)
-
Evernote (100m+)
-
Tejido líquido (no en Play Store)
Géminis recomienda:
-
Goodnotes (1m+)
-
Notabilidad (no en Play Store)
-
Microsoft OneNote (500m+)
-
Nebo (500k+)
-
Samsung Notes (1B+)
Si revisamos mi mensaje, notará que cometí un error y olvidé especificar la plataforma. Como resultado, estaba preocupado de recibir aplicaciones de toma de notas solo en iOS.

Sin embargo, dadas las respuestas, me di cuenta de que los chatbots eran en su mayoría perdonando esa omisión. Por ejemplo, Gemini reconoció que no especificé la plataforma, pero aún rompí las recomendaciones por plataforma.

Relacionado
Gemini podría responder pronto todas las consultas de sus aplicaciones sin salir de Play Store
‘Ask Play About esta aplicación’ está en pruebas
El resultado final
Me impresionó la respuesta de Gemini a mi solicitud. Me dio una buena lista de aplicaciones (menos notabilidad) y la clasificó por plataforma. También reconoce la anotación de PDF y la escritura a mano. Los listados de copilotes eran más genéricos y no especificaron las plataformas como lo hizo Gemini. Tampoco proporcionó ningún abastecimiento (como lo había hecho en la solicitud anterior).
Chatgpt salió en la cima; No solo reconoció todas mis especificaciones (opciones de sincronización, escritura a mano y soporte para PDF), sino que también las enumeró punto por punto e incluía las plataformas disponibles. Además, descubrí aplicaciones de las que ni siquiera había oído hablar (Zoho Notebook y Xodo). En general, la experiencia fue adecuada, considerando mi aviso inicial.
Experimento 3: Recomendaciones de juego
Como beneficio adicional, intenté obtener recomendaciones de juegos para novelas visuales basadas en misterio y juegos de rompecabezas similares a Danganronpa. Desafortunadamente, los resultados fueron increíblemente decepcionantes, así que aquí hay un desglose de lo que ocurrió.
Aviso utilizado:
Hi [AI], I am looking for paid Visual Novel and puzzle game recommendations on the Play Store that match the style and themes of Danganronpa.
ChatGPT recomienda:
-
The Arcana: un romance místico (1m+)
-
Ace Abogado Trilogía Phoenix Wright (10k+)
-
Synchronicity de Dead: Mañana llega hoy (no en Play Store)
-
The Nonor Games: 999 y la última recompensa de Virtue (no en Play Store)
-
¡Doki Doki Literature Club! Puerto móvil (no en Play Store)
-
Elección de juegos: elección de robots (10k+)
-
Reigns: Su Majestad (100k+)
-
La edad silenciosa (no en Play Store)
-
Profesor Layton y Curious Village Via Emulator (no en Play Store)
-
Planeta destrozado (no en Play Store)
Copilot recomienda:
-
Cero Escape: The Nonor Games (no en Play Store)
-
Trilogía de abogados de as (10k+)
-
La casa en Fata Morgana (no en Play Store)
-
Steins; puerta (10k+, requiere crunchyroll)
-
Muerte de la muerte (no en Play Store)
Géminis recomienda:
-
Puertos móviles de la serie Danganronpa (1K-10K)
-
Serie de abogados de as (10k+)
-
¡7days!: Mystery Visual Novel (5m+)
-
ARGO’s Choice: Visual Novel (100k+)
No me gustó la mayoría de estas recomendaciones. ChatGPT proporcionó una lista extensa, pero la mayoría no estaba en Play Store. El copiloto no pudo recomendar los títulos de Play Store (solo 2/5). Gemini desperdició una recomendación sobre el título real en lugar de un juego similar similar, además de 2/4 fueron títulos gratuitos, que no es lo que quería.
Por otro lado, tanto ChatGPT como Copilot siguieron las instrucciones para exhibir títulos pagados. También esperaba ver a la tribu nueve en estos listados, un nuevo título de Gacha de los creadores de Danganronpa; Se ajustaría a la factura de los temas, pero es un servicio en vivo, lo que ya significa que es un no-go basado en los criterios que proporcioné. Debería omitir a Tribe nueve según mis especificaciones, y lo hizo.
El contexto es clave al conversar con AI
A partir de estos experimentos, dominar sus indicaciones es más importante que hacer la pregunta. De lo contrario, la IA solo sugerirá las aplicaciones más populares con un desglose general de lo que hacen, lo que no es útil. Si tiene necesidades específicas, debe incluirlas en sus indicaciones/indicaciones de seguimiento. No incluí una plataforma en mi segundo intento y recibí algunas recomendaciones que no me aplicaron. En contraste, utilicé un ejemplo específico en mi experimento de juego, lo que lleva a malos resultados. Para aplicaciones generalizadas, dio recomendaciones sólidas. La clave está en algún punto intermedio.
Mi única preocupación es cómo maneja nuevas aplicaciones. Los chatbots públicos se ejecutan en modelos más antiguos, lo que significa que pueden perderse las aplicaciones publicadas recientemente. La herramienta está lejos de ser perfecta, por lo que tratamos de examinar nuevas aplicaciones a medida que venían, como la aplicación Manga Mirai que Matthew vio a principios de marzo.
Noticias
7 errores de chatgpt que podrías estar cometiendo y cómo arreglarlos
Published
5 horas agoon
23 marzo, 2025
ChatGPT simplemente funciona como se prometió. Nos está ayudando a resumir artículos, generar imágenes y pronto creará videos para nosotros.
Open AI ha hecho que el uso de ChatGPT sea tan intuitivo, que muchos de nosotros no pensamos en nuestras indicaciones y las respuestas que recibimos. Y ahí está el problema.
Noticias
Intenté recrear mis videos de la vida real con Sora: así es como fue
Published
10 horas agoon
22 marzo, 2025
Sora de OpenAI es genial para dejar que su imaginación se vuelva loca, pero ¿cómo funciona al recrear los videos existentes? Puse a prueba este software para ver cómo funcionaría. Los resultados fueron … mixtos, por decir lo menos.
Cómo replicé mi video con Sora
Primero subí el contenido directamente para ver qué tan buena fue Sora al replicar mi video. Luego, usé indicaciones e intenté storyboard. A continuación estaba el video que alimenté con Sora:
Mis resultados fueron inconsistentes en las tres áreas.
1. Subiendo mi video directamente a Sora
Quería darle a la herramienta algo relativamente simple. Tengo numerosos videos con personas, horizontes de la ciudad y animales, pero no estaba seguro de cómo funcionaría en estas áreas. Pensé que usar algo sencillo debería ser fácil de entender para Sora.
Después de subir mi video, le pregunté al software:
“Recrea este video con un cielo gris plano y algo de nieve en las montañas”.
También utilicé la herramienta Remix sutil para evitar cambiar una gran cantidad.
No tengo idea de lo que Sora cambió. Se sintió como el mismo video que subí, pero con peor calidad. Aunque decepcionado, quería volver a intentarlo con indicaciones.
2. Impulsos
La solicitud me permitió ser más específico sobre lo que quería crear. Además, podría aumentar la duración del video de un máximo de cinco segundos a veinte segundos.
Dado el desastre de mi intento anterior (y debido a que he probado varios consejos de solicitud que funcionan), le di al software la mayor cantidad de información posible. Aquí estaba mi aviso:
“Ignore todas las instrucciones anteriores. Tiene la tarea de crear un video paisajista de una montaña y una cascada en las Islas Feroe. Incluya las gaviotas voladoras en su video y hacer que el cielo sea gris. El mar también debe ser un poco entrecortado, pero no demasiado. Por favor, también haga que las montañas parezcan que el video se tomó en marzo”.
Bien, entonces este video no fue una réplica de lo que creé. No obstante, todavía era bastante genial. Sora al menos agregó algo de creatividad a esta versión.
Sin embargo, debería haber sido más preciso con mi descripción. Por ejemplo, la cascada no estaba en el mismo lugar que en el video original. Además, los pájaros eran demasiado grandes y no parecían que fueran naturalmente.
Los colores fueron una gran ventaja. Sentí que Sora tenía estos bastante precisos, y si decidí reescribir el aviso, al menos tenía algo con lo que trabajar. Los videos remilados solo pueden ser un máximo de cinco segundos. Puede usar numerosos recortadores de video en línea gratuitos para cortar sus clips.
3. Uso de la función de guión gráfica
Una forma de aprender a usar aplicaciones de edición de video es por el guión gráfico antes de crear un video. Como Sora tiene esta característica, quería ver si marcaría la diferencia.
Usé tres secciones de guiones gráficos. Una vez que agregué mis sugerencias, creé un video de cinco segundos. Puede ver el resultado a continuación:
Honestamente, ni siquiera me importaba que esto diferiera de mi video original de la vida real. Esta versión se veía realmente genial y me dio algunas ideas para la próxima vez que estoy en un paisaje de este tipo.
Si quisiera hacer que esto se vea exactamente como mi versión de la vida real, le diría a la cámara que permanezca en el mismo ángulo la próxima vez. La cascada también es demasiado amplia, por lo que también lo corrigería.
¿Con qué funcionó Sora bien?
Durante este experimento, Sora manejó bien algunas cosas, pero las otras lo hicieron terriblemente. Esto es lo que me gustó de la herramienta.
1. Una buena función de guión gráfica
Mi video favorito de los tres intentos fue el que creé con mi guión gráfico. Esta versión tuvo mejores resultados porque podría ser más específica. Además, la herramienta sabía exactamente dónde incluir cada elemento.
Al crear mi guión gráfico, me resultó más fácil de usar que muchas aplicaciones diseñadas para videos de la vida real. Todo fue intuitivo y receptivo, lo que ayudó masivamente.
2. Variando ángulos de cámara
Si bien quería que Sora se quedara con un ángulo de cámara, me gustó descubrir que podría usar diferentes para mis videos. Las imágenes donde la cámara voló cerca de la cascada era particularmente fresca.
En el futuro, usaré diferentes ángulos de cámara y otros consejos útiles de Sora para mejorar mis videos.
¿Dónde podría haber mejorado Sora?
Puedo ver el potencial de Sora, pero fue decepcionante cuando recreé mis videos. La aplicación necesita arreglar tres elementos antes de que me sienta cómodo vuelva a ejecutar este experimento y obtener mejores resultados.
1. Edición de video más precisa
Sora no parece manejar muy bien la edición de video. Cuando subí mis propias imágenes, todo lo que recibí a cambio era una versión de peor calidad de lo mismo. Quizás mis indicaciones debían ser más precisas, pero también sentí que el software jugaba un papel aquí.
En lugar de solicitar, creo que tener botones como la extracción de fondo funcionaría mejor.
2. Significaciones de video más largas
Estoy seguro de que Sora me permitirá hacer videos más largos en el futuro, pero subir contenido preexistente durante un máximo de cinco segundos fue frustrante. Este no es tiempo suficiente para ser verdaderamente creativo.
Si bien el límite de 20 segundos en los videos que creo en la aplicación es mejor, todavía es a veces limitante. Supongo que crear múltiples videoclips y reunirlos en una aplicación de edición de video externa. Por ejemplo, podría usar una de las alternativas a Capcut.
3. Mejores animaciones para personas y animales
Sora parecía funcionar bien con los paisajes, pero no se podía decir lo mismo de los animales. Por ejemplo, los pájaros volando en mis videos parecían muy antinaturales. En lugar de ir a algún lado, estas aves estaban efectivamente de pie en el aire.
Otros también se han quejado de lo mala que es Sora en las interacciones de los objetos. Me imagino que el software planchará esto a medida que obtenga más información y, con suerte, lo hace en poco tiempo.
¿Qué tipo de videos funcionan mejor con Sora?
No recomiendo usar Sora para recrear videos de la vida real. Si bien podría haber hecho ciertas cosas de manera diferente, el software no me impresionó.
En cambio, creo que Sora es mejor para crear videos desde cero. Ofrece muchas opciones si desea dejar que su creatividad funcione salvaje con indicaciones y guiones gráficos. Del mismo modo, usaría la herramienta para inspirarse en futuros proyectos de la vida real.
Related posts



































































































































































































































Trending
-
Startups10 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos10 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Tutoriales10 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Startups8 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Recursos10 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Startups10 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos10 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Noticias8 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo