Connect with us

Noticias

O3 de OpenAI muestra un progreso notable en ARC-AGI, lo que genera un debate sobre el razonamiento de la IA

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


El último modelo o3 de OpenAI ha logrado un gran avance que ha sorprendido a la comunidad de investigación de IA. o3 obtuvo una puntuación sin precedentes del 75,7 % en el súper difícil punto de referencia ARC-AGI en condiciones de computación estándar, y una versión de alta computación alcanzó el 87,5 %.

Si bien el logro en ARC-AGI es impresionante, aún no prueba que se haya descifrado el código de la inteligencia artificial general (AGI).

Corpus de razonamiento abstracto

El punto de referencia ARC-AGI se basa en el Abstract Reasoning Corpus, que prueba la capacidad de un sistema de IA para adaptarse a tareas novedosas y demostrar una inteligencia fluida. ARC se compone de un conjunto de acertijos visuales que requieren la comprensión de conceptos básicos como objetos, límites y relaciones espaciales. Si bien los humanos pueden resolver fácilmente los acertijos ARC con muy pocas demostraciones, los sistemas de inteligencia artificial actuales tienen dificultades con ellos. ARC se ha considerado durante mucho tiempo una de las medidas de IA más desafiantes.

Ejemplo de rompecabezas ARC (fuente: arcprize.org)

ARC ha sido diseñado de manera que no pueda ser engañado entrenando modelos con millones de ejemplos con la esperanza de cubrir todas las combinaciones posibles de acertijos.

El punto de referencia se compone de un conjunto de formación pública que contiene 400 ejemplos sencillos. El conjunto de capacitación se complementa con un conjunto de evaluación pública que contiene 400 acertijos que son más desafiantes como medio para evaluar la generalización de los sistemas de IA. El Desafío ARC-AGI contiene conjuntos de prueba privados y semiprivados de 100 rompecabezas cada uno, que no se comparten con el público. Se utilizan para evaluar sistemas de IA candidatos sin correr el riesgo de filtrar los datos al público y contaminar sistemas futuros con conocimientos previos. Además, la competencia establece límites en la cantidad de cálculos que los participantes pueden utilizar para garantizar que los acertijos no se resuelvan mediante métodos de fuerza bruta.

Un gran avance en la resolución de tareas novedosas

o1-preview y o1 obtuvieron un máximo de 32% en ARC-AGI. Otro método desarrollado por el investigador Jeremy Berman utilizó un enfoque híbrido, combinando Claude 3.5 Sonnet con algoritmos genéticos y un intérprete de código para lograr un 53%, la puntuación más alta antes de o3.

En una publicación de blog, François Chollet, el creador de ARC, describió el desempeño de o3 como “un aumento sorprendente e importante de la función escalonada en las capacidades de IA, que muestra una capacidad novedosa de adaptación de tareas nunca antes vista en los modelos de la familia GPT”.

Es importante señalar que el uso de más computación en generaciones anteriores de modelos no pudo alcanzar estos resultados. Para ponerlo en contexto, los modelos tardaron 4 años en progresar del 0% con GPT-3 en 2020 a solo el 5% con GPT-4o a principios de 2024. Si bien no sabemos mucho sobre la arquitectura de o3, podemos estar seguros de que sí. no es un orden de magnitud mayor que sus predecesores.

Rendimiento de diferentes modelos en ARC-AGI (fuente: arcprize.org)

“Esto no es simplemente una mejora incremental, sino un avance genuino, que marca un cambio cualitativo en las capacidades de la IA en comparación con las limitaciones anteriores de los LLM”, escribió Chollet. “o3 es un sistema capaz de adaptarse a tareas que nunca antes había encontrado, posiblemente acercándose al rendimiento a nivel humano en el dominio ARC-AGI”.

Vale la pena señalar que el rendimiento de o3 en ARC-AGI tiene un costo elevado. En la configuración de computación baja, al modelo le cuesta entre 17 y 20 dólares y 33 millones de tokens resolver cada rompecabezas, mientras que en la configuración de computación alta, el modelo utiliza alrededor de 172 veces más computación y miles de millones de tokens por problema. Sin embargo, a medida que los costos de la inferencia sigan disminuyendo, podemos esperar que estas cifras se vuelvan más razonables.

¿Un nuevo paradigma en el razonamiento LLM?

La clave para resolver problemas novedosos es lo que Chollet y otros científicos denominan “síntesis de programas”. Un sistema de pensamiento debería ser capaz de desarrollar pequeños programas para resolver problemas muy específicos y luego combinar estos programas para abordar problemas más complejos. Los modelos de lenguaje clásicos han absorbido mucho conocimiento y contienen un rico conjunto de programas internos. Pero carecen de composicionalidad, lo que les impide resolver acertijos que están más allá de su distribución de entrenamiento.

Desafortunadamente, hay muy poca información sobre cómo funciona el o3 bajo el capó, y aquí las opiniones de los científicos divergen. Chollet especula que o3 utiliza un tipo de síntesis de programa que utiliza razonamiento de cadena de pensamiento (CoT) y un mecanismo de búsqueda combinado con un modelo de recompensa que evalúa y refina las soluciones a medida que el modelo genera tokens. Esto es similar a lo que los modelos de razonamiento de código abierto han estado explorando en los últimos meses.

Otros científicos como Nathan Lambert del Instituto Allen de IA sugieren que “o1 y o3 pueden ser en realidad sólo pasos directos de un modelo de lenguaje”. El día en que se anunció o3, Nat McAleese, investigador de OpenAI, publicó en X que o1 era “solo un LLM capacitado con RL. o3 está impulsado por una mayor ampliación de RL más allá de o1”.

El mismo día, Denny Zhou, del equipo de razonamiento de Google DeepMind, calificó la combinación de búsqueda y los enfoques actuales de aprendizaje por refuerzo como un “callejón sin salida”.

“Lo más hermoso del razonamiento LLM es que el proceso de pensamiento se genera de forma autorregresiva, en lugar de depender de la búsqueda (por ejemplo, mcts) en el espacio generacional, ya sea mediante un modelo bien ajustado o un mensaje cuidadosamente diseñado”, publicó. en X.

Si bien los detalles de las razones de o3 pueden parecer triviales en comparación con el avance de ARC-AGI, pueden definir muy bien el próximo cambio de paradigma en la formación de LLM. Actualmente existe un debate sobre si las leyes de escalamiento de los LLM a través de datos de entrenamiento y computación se han topado con un muro. Si el escalado en el tiempo de prueba depende de mejores datos de entrenamiento o de diferentes arquitecturas de inferencia puede determinar el siguiente camino a seguir.

No AGI

El nombre ARC-AGI es engañoso y algunos lo han comparado con resolver AGI. Sin embargo, Chollet enfatiza que “ARC-AGI no es una prueba de fuego para AGI”.

“Aprobar ARC-AGI no equivale a alcanzar AGI y, de hecho, no creo que o3 sea AGI todavía”, escribe. “O3 todavía falla en algunas tareas muy fáciles, lo que indica diferencias fundamentales con la inteligencia humana”.

Además, señala que o3 no puede aprender estas habilidades de forma autónoma y depende de verificadores externos durante la inferencia y de cadenas de razonamiento etiquetadas por humanos durante el entrenamiento.

Otros científicos han señalado los defectos de los resultados informados por OpenAI. Por ejemplo, el modelo se ajustó en el conjunto de entrenamiento ARC para lograr resultados de última generación. “El solucionador no debería necesitar mucha ‘formación’ específica, ni en el dominio en sí ni en cada tarea específica”, escribe la científica Melanie Mitchell.

Para verificar si estos modelos poseen el tipo de abstracción y razonamiento para el que se creó el punto de referencia ARC, Mitchell propone “ver si estos sistemas pueden adaptarse a variantes en tareas específicas o a tareas de razonamiento utilizando los mismos conceptos, pero en otros dominios además de ARC. “

Chollet y su equipo están trabajando actualmente en un nuevo punto de referencia que supone un desafío para o3, ya que podría reducir su puntuación a menos del 30 % incluso con un presupuesto de cómputo elevado. Mientras tanto, los humanos podrían resolver el 95% de los acertijos sin ningún entrenamiento.

“Sabrás que AGI está aquí cuando el ejercicio de crear tareas que sean fáciles para los humanos comunes pero difíciles para la IA se vuelva simplemente imposible”, escribe Chollet.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

5 Informe de la generación de imágenes Chatgpt que me volaron

Published

on

ChatGPT se ha convertido silenciosamente en una fuerza formidable en la generación de imágenes de IA, y la mayoría de las personas no se dieron cuenta. Mientras que todos siguen debatiendo Midjourney vs Dall-E, Operai ha convertido a Chatgpt en una potencia creativa que rivaliza y, a menudo, supera a Gemini, Leonardo e Ideogram.

Me sorprendió realmente lo buena generación de imágenes de Chatgpt. Lo que comenzó como experimentación casual se convirtió rápidamente en asombro cuando los resultados fueron prácticamente indistinguibles de las fotos reales. El verdadero atractivo es cómo no hay necesidad de la jerga más técnica que necesita al solicitar otras herramientas de imagen de IA.

Continue Reading

Noticias

El generador de video Veo 3 AI de Gemini está a solo un paso de diezmar la verdad en Internet

Published

on

Recientemente probé Google Géminis Modelo de generación de videos más nuevo y muy publicitado, VEO 3. Parte del extremadamente costoso plan AI Ultra de Gemini de $ 250 por mes, VEO 3 puede hacer pequeños objetos finamente detallados, finamente detallados, como cebollas picadasen movimiento y crear audio acompañante y realista. No es perfecto, pero con una calibración rápida cuidadosa y suficientes generaciones, puede crear algo indistinguible, de un vistazo, de la realidad.

Sí, esta es una nueva tecnología fresca, profundamente impresionante. Pero también es mucho más que eso. Podría significar la final de la muerte final de la verdad en Internet. Veo 3 ya plantea una gran amenaza como es, pero solo una actualización menor revolucionará la creación de Deepfake, el acoso en línea y la propagación de la información errónea.


Una vez que Veo 3 obtiene la función de carga de la imagen, todo ha terminado

Para todas las actualizaciones que el modelo VEO 3 tiene sobre su predecesor, VEO 2, actualmente le falta una característica clave: la capacidad de generar videos basados ​​en imágenes que sube.

Con Veo 2, puedo subir una foto mía, por ejemplo, y hacer que genere un video de mí trabajando en mi computadora. Teniendo en cuenta que Veo 2 y la herramienta de animación de IA de Google, Whisk, ambos admiten esta funcionalidad, parece inevitable que Veo 3 lo obtenga eventualmente. (Le preguntamos a Google si planea agregar esta función y actualizará este artículo con su respuesta). Esto significaría que cualquiera podrá generar videos realistas de personas que conocen y decir cosas que nunca tienen y probablemente nunca lo harían.

Las implicaciones son obvias en una era en la que los clips de autenticidad dudosa se extienden como incendios forestales en las redes sociales todos los días. ¿No te gusta tu jefe? Envíe un clip a HR de ellos haciendo algo inapropiado. ¿Quieres difundir noticias falsas? Publique una conferencia de prensa falsa en Facebook. ¿Odias a tu ex? Generalos haciendo algo indecoroso y envíelo a toda su familia. Los únicos límites reales son tu imaginación y tu moralidad.

Si generar un video con audio de una persona real toma solo unos pocos clics y no cuesta mucho (ni nada), ¿cuántas personas abusarán de esa característica? Incluso si es solo una pequeña minoría de usuarios, eso todavía suma mucho potencial para el caos.


Google no se toma en serio la moderación

Como es de esperar, Google impone algunas limitaciones en lo que puede y no puede hacer con Gemini. Sin embargo, la compañía no es lo suficientemente estricta como para evitar que ocurra lo peor.

De todos los chatbots que he probado en las principales compañías tecnológicas, la oferta de Google, Gemini, tiene las restricciones más débiles. No se supone que Gemini participe en el discurso de odio, pero le dará ejemplos si lo preguntas. No se supone que genere contenido sexualizado, pero proporcionará una imagen de alguien con atuendo o lencería de playa si lo indica. No se supone que habilite actividades ilegales, pero creará una lista de los principales sitios de torrenting si lo pregunta. Las restricciones básicas para Gemini que evitan que genere un video de una figura política popular no son suficientes cuando es tan fácil sortear las políticas de Google.

¡Obtenga nuestras mejores historias!


Su dosis diaria de nuestras mejores noticias tecnológicas

Regístrese para nuestro boletín de What’s What’s Now Now para recibir las últimas noticias, los mejores productos nuevos y el asesoramiento experto de los editores de PCMAG.

Al hacer clic en Registrarme, confirma que tiene más de 16 años y acepta nuestros Términos de uso y Política de privacidad.

¡Gracias por registrarse!

Su suscripción ha sido confirmada. ¡Esté atento a su bandeja de entrada!

ChatgptJailbreak subbreddit ordenado por top

(Crédito: Reddit/PCMAG)

¿Qué sucede cuando las restricciones laxas de Google se encuentran con una comunidad de Internet con la intención de romperlas? Llevar ChatgptJailbreakpor ejemplo, que se encuentra en el 2% superior de los subreddits por tamaño. Esta comunidad se dedica a “desbloquear una IA en la conversación para que se comporte de una manera que normalmente no se debió a sus barandillas incorporadas”. ¿Qué harán las personas con ideas afines con VEO 3?

Recomendado por nuestros editores

No me importa si alguien quiere divertirse al conseguir un chatbot para generar contenido para adultos o confiar en uno para encontrar sitios de torrente. Pero me preocupa qué significan los videos fotorrealistas fáciles de generar (completos con audio) para el acoso, la información errónea y el discurso público.


Cómo lidiar con la nueva normalidad de Veo 3

Por cada Sinthid AI Content WaterMark System introduce Google, aparecen los sitios de eliminación de marcas de agua de terceros y las guías de eliminación en línea. Para cada chatbot con restricciones y salvaguardas, hay un FreedomGPT sin ellos. Incluso si Google bloquea a Gemini con tantos filtros que ni siquiera puedes generar un lindo video de gatos, hay muy Poco en su lugar Para detener los jailbreakers e imitadores sin censura una vez que la generación de videos VEO 3 se convierte en la corriente principal.

Durante décadas, las imágenes incompletas de Photoshop que representan a personas reales que hacen cosas que nunca hicieron han hecho las rondas en Internet; estas son solo parte de la vida en la era digital. En consecuencia, debe verificar cualquier cosa que vea en línea que parezca demasiado horrible o demasiado bueno para ser verdad. Esta es la nueva normalidad con VEO 3 Generación de videos: no puede tratar ningún videoclip que ve como real, a menos que sea de una organización de noticias de buena reputación u otro tercero en el que sabe que puede confiar.

La generación de videos Veo 3 de Gemini es solo el primer salto de una piedra en el estanque de la generación de videos AI ampliamente accesible y verdaderamente realista. Los modelos de generación de videos AI solo se volverán más realistas, ofrecerán más funciones y también proliferarán más. Atrás quedaron los días en que la evidencia de video de algo es la pistola de fumar. Si la verdad no está muerta, ahora es diferente y requiere cuidadoso verificación.

Sobre Ruben Circelli

Analista, software

Ruben Circelli

He estado escribiendo sobre tecnología de consumo y videojuegos durante más de una década en una variedad de publicaciones, incluidas Destructoid, GamesRadar+, LifeWire, PCGamesn, Relieed Reviews y What Hi-Fi?, Entre otros. En PCMAG, reviso el software de IA y productividad, desde chatbots hasta aplicaciones de listas de tareas pendientes. En mi tiempo libre, es probable que esté cocinando algo, jugar un juego o jugar con mi computadora.

Lea la biografía completa de Ruben

Lea lo último de Ruben Circelli

Continue Reading

Noticias

Chatgpt útil para aprender idiomas, pero la visión crítica de los estudiantes debe ser fomentada al usarla, dice Study

Published

on

Crédito: George Pak de Pexels

Dado el creciente número de personas que recurren a ChatGPT al estudiar un idioma extranjero, la investigación pionera de UPF revela el potencial y las deficiencias de aprender un segundo idioma de esta manera.

Según el estudio, que analiza el uso de ChatGPT por estudiantes chinos que aprenden español, la plataforma les ayuda a resolver consultas específicas, especialmente vocabulario, escritura y comprensión de lectura. Por el contrario, su uso no es parte de un proceso de aprendizaje coherente y estructurado y carece de una visión crítica de las respuestas proporcionadas por la herramienta. Por lo tanto, se insta a los profesores de idiomas extranjeros a asesorar a los estudiantes para que puedan hacer un uso más reflexivo y crítico de ChatGPT.

Esto se revela en el primer estudio cualitativo en el mundo para examinar cómo los estudiantes chinos usan ChatGPT para aprender español, desarrollado por el Grupo de Investigación sobre Aprendizaje y Enseñanza de Lenguas (Gr@EL) del Departamento de Traducción y Ciencias del Lenguaje de la UPF. El estudio fue realizado por Shanshan Huang, un investigador del Gr@El, bajo la supervisión del coordinador del grupo de investigación, Daniel Cassany. Ambos han publicado recientemente un artículo sobre el tema en el Journal of China Aprendizaje de idiomas asistidos por computadora.

Para llevar a cabo su investigación, el uso de ChatGPT por 10 estudiantes chinos que aprenden español se examinó cualitativamente durante una semana. Específicamente, se ha analizado en profundidad un total de 370 indicaciones (indicaciones de que cada usuario ingresa a ChatGPT para obtener la información deseada) en profundidad, junto con las respuestas correspondientes de la plataforma. El estudio ha sido complementado por cuestionarios administrados en los estudiantes y los comentarios de los propios diarios de aprendizaje de los estudiantes.

Las ventajas de chatgpt

La herramienta sirvió como una sola ventana desde la cual resolver todas las consultas lingüísticas, que se adapta a las necesidades de cada estudiante. Con respecto al potencial de CHATGPT para los idiomas de aprendizaje, el estudio revela que permite a los estudiantes obtener respuestas a diferentes consultas sobre el idioma extranjero que están aprendiendo, en este caso, español, desde la única plataforma tecnológica.

Por ejemplo, pueden interactuar con ChatGPT para preguntar sobre vocabulario y ortografía, en lugar de conectarse primero a un diccionario digital y luego a un corrector ortográfico. Además, la plataforma se adapta al perfil y las necesidades de cada estudiante específico, en función del tipo de interacciones propuestas por cada usuario.

En 9 de cada 10 ocasiones, los estudiantes no plantean preguntas de seguimiento después de recibir su primera respuesta de ChatGPT. Sin embargo, el estudio advierte que la mayoría de los estudiantes usan ChatGPT sin crítica, ya que generalmente no plantean preguntas de seguimiento después de obtener una respuesta inicial a sus consultas específicas sobre el idioma español.

De las 370 interacciones analizadas, 331 (89.45%) involucraron una sola respuesta-respuesta. El resto de las interacciones analizadas corresponden a 31 circuitos de respuesta-respuesta sucesivos en los que el estudiante pidió a la herramienta una mayor claridad y precisión, después de haber recibido la información de respuesta inicial.

La mayoría de las consultas tratan con vocabulario, comprensión de lectura y escritura, y consultas sobre la comunicación oral y la gramática son residuales.

Por otro lado, el estudio muestra qué temas de consultas específicas plantean los estudiantes en el chat. Casi el 90%se refiere al vocabulario (36.22%), comprensión de lectura (26.76%) y escritura en español (26.49%). Sin embargo, solo uno de cada 10 se refiere a consultas gramaticales, especialmente cuando se trata de conceptos complejos y expresión oral.

Los investigadores advierten que esta distribución de los temas de consultas podría explicarse por factores culturales y tecnológicos. Por un lado, el modelo para aprender español en China pone menos énfasis en la comunicación oral que en las habilidades de escritura y comprensión de lectura. Por otro lado, la versión 3.5 de ChatGPT, que es utilizada por los estudiantes que participaron en el estudio, es más capaz de generar e interpretar textos escritos que interactuar con los usuarios durante una conversación.

Sin embargo, habría una necesidad en los estudios posteriores para analizar si los estudiantes de idiomas extranjeros aprovechan la próxima versión de ChatGPT (GPT-4) para mejorar sus habilidades de comunicación oral.

Fomentar un nuevo modelo de la relación estudiante-maestro-maestro

En vista de los resultados del presente estudio, los investigadores enfatizan que, más allá de la promoción de la educación digital de los estudiantes, es aún más importante fortalecer su pensamiento crítico y sus habilidades de autoaprendizaje. Los profesores de idiomas extranjeros pueden desempeñar un papel fundamental en la guía de los estudiantes sobre cómo organizar su aprendizaje paso a paso con el apoyo de herramientas de IA como ChatGPT con una visión crítica.

El estudio de UPF recomienda que los maestros deben ayudar a los estudiantes a desarrollar indicaciones más efectivas y fomentar un mayor diálogo con ChatGPT para explotar mejor sus capacidades. En resumen, el estudio respalda un nuevo modelo de relación para maestros, herramientas de IA y estudiantes que pueden fortalecer y mejorar su proceso de aprendizaje.

Más información:
Shanshan Huang et al, aprendizaje en español en la era de la IA: AI como herramienta de andamio, Journal of China Aprendizaje de idiomas asistidos por computadora (2025). Doi: 10.1515/jccall-2024-0026

Proporcionado por Universitat Pompeu Fabra – Barcelona

Citación: CHATGPT útil para aprender idiomas, pero la visión crítica de los estudiantes debe ser fomentada al usarla, dice Study (2025, 3 de junio) recuperado el 3 de junio de 2025 de https://phys.org/news/2025-06-chatgpt-languages-students-critical-vision.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Continue Reading

Trending