Connect with us

Noticias

El o1 de OpenAI que usó “búsqueda” fue una operación psicológica

Published

on

Un poco de limpieza: planeo aumentar el precio de Interconnects en el nuevo año. Estoy produciendo mucho más contenido del que esperaba y el servidor de Discord está funcionando fantástico. Es un buen momento para actualizar a una suscripción anual; en realidad, se trata de un gran descuento navideño hasta que el precio suba en 2025. O siempre puedes Regala Interconexiones! Recordatorio: ofrezco 80% de descuento en descuentos para estudiantes.

Administrar suscripción

Y este es un último recordatorio de que estaré en NeurIPS en Vancouver la próxima semana. Comuníquese si está en la ciudad.

El lanzamiento de o1 de OpenAI se comunicó para hacer pensar a la gente que utilizaba activamente algún tipo de búsqueda (aparte del aprendizaje por refuerzo ingenuo), tanto en el momento del entrenamiento como en el de las pruebas. Se habían dicho muchas cosas antes de esto: el “autojuego” en Q*, Noam Brown liderando un equipo para trabajar en la búsqueda en OpenAI y muchos otros humo y espejos.

En mi primera publicación en o1, traté de tomar las comunicaciones corporativas de OpenAI y los medios de sus empleados al pie de la letra para descubrir qué está pasando: ¿Qué significaría para o1 de OpenAI utilizar la búsqueda?

Ingeniería inversa o1 de OpenAI

Hoy hago lo contrario… ¿Qué significaría para sistemas similares a o1 utilizar exclusivamente aprendizaje por refuerzo a gran escala sin recompensas intermedias o de proceso? Esto no incluye ninguna expansión de los pasos actuales en la cadena de razonamiento como un “árbol” o representaciones similares. Este es el argumento de que toda la “búsqueda” en o1 de OpenAI (y algunas de las replicaciones) está dentro del comportamiento de entrenamiento de aprendizaje por refuerzo. Los algoritmos de aprendizaje por refuerzo “buscan” para maximizar sus funciones de valor interno y recompensas extrínsecas en el entorno, pero es mucho menos intuitivo cómo se hace que algo como Monte Carlo Tree Search (MCTS).

El resumen de la publicación original fue que vi o1 de OpenAI como:

  1. Procesar recompensas en el entrenamiento, proporcionando señales de recompensa por paso de razonamiento (basándose en mi Q* Hipótesis).

  2. Búsqueda de profundidad 1 en el momento de la prueba con un verificador por paso de razonamiento como cabezal de valor independiente o incorporado (por ejemplo, un verificador generativo).

¿Por dónde empezamos en el otro camino? ¿Qué suposición es incorrecta?

Estaba viendo la gran conferencia de la profesora Sasha Rush, Especulaciones sobre la escala del tiempo de prueba (diapositivas aquí), y era obvio que nos encontramos en una encrucijada con respecto a los tipos de sistemas de IA que podemos construir con modelos de lenguaje. Los modelos o1 de OpenAI son los primeros de una nueva generación. Sasha explora 4 áreas que podrían estar involucradas en sistemas de capacitación como o1 de OpenAI, catalogadas como “Los sospechosos”:

  1. Adivina + Comprobar

  2. Recompensas del proceso

  3. Buscar / AlfaZero

  4. Aprendiendo a corregir

En particular, para ir en contra de mi primera publicación, necesito explicar cómo se puede construir o1 de OpenAI sin ninguno de los siguientes:

  • Búsqueda en línea en el momento de la prueba que controla la cantidad de computación gastada, es decir eliminando Search/AlpaZero de los sospechosos.

  • Recompensas intermedias que supervisan el proceso de formación, es decir eliminar las recompensas del proceso de los sospechosos.

Esto deja a los sospechosos como “Adivina + Verifica” y “Aprende a corregir”. Estas son las ideas más simples entre las cuatro.

Como todas las discusiones sobre o1, para hacer esto, tenemos que comenzar con el gráfico de cálculo fundamental en el momento de la prueba para ver dónde encajan las ideas.

Lo que implica el gráfico de cálculo en el momento de la prueba es que de alguna manera la cantidad de cálculo gastado se puede controlar como un parámetro de generación. Esto se debe a que el equipo de modelado definitivamente puede controlar el gráfico de la izquierda, el cálculo del tiempo de entrenamiento. Emparejarlos juntos, donde la izquierda es un régimen controlable y la derecha pueden ser simplemente puntos muestreados del comportamiento natural, está empujando la narrativa en la dirección de un cómputo controlable en el tiempo de prueba.

La versión más intuitiva de esto sería un factor de ramificación en la búsqueda superficial, pero una alternativa podría ser un mensaje que simplemente le indique al modelo cuánto tiempo puede generar. Para este último, es importante recordar que OpenAI enfatizó que este tipo de modelo solo podría haberse realizado una vez que se lograron avances en el contexto a largo plazo.

La otra forma en que se podría crear el gráfico de cálculo en el momento de la prueba es muestreando generaciones y trazando la tasa de ganancias versus la cantidad de tokens que usó el modelo en su propia decodificación autorregresiva estándar. Lo que esto parece es que, para los conjuntos de evaluación, se toman muestras del modelo varias veces, no necesariamente solo una vez por mensaje, como es tradicional. Luego, agruparemos las respuestas en las regiones informáticas específicas del momento de la prueba en las que terminaron las finalizaciones.

A continuación se muestra un diagrama que muestra el escenario hipotético con múltiples finalizaciones por mensaje de evaluación.

A continuación, agrupe las ejecuciones de evaluación por cálculo gastado por el modelo y califique las respuestas. Asegúrese de que para cada mensaje haya suficientes evaluaciones representativas.

Finalmente, agregue las puntuaciones. Convierta los contenedores de cálculo en el momento de la prueba en puntuaciones y luego ordene los contenedores por cálculo gastado.

Luego, puedes convertir esto en una ley de escala de inferencia, sin utilizar ninguna búsqueda.

Incluso si este es el caso, sospecho que OpenAI eventualmente desarrollará la capacidad de controlar la duración de su generación por sí solo. Incluso solo la mitad izquierda del gráfico original de OpenAI, escalar el entrenamiento de RL, es potencialmente un cambio radical en la forma en que se entrenan los modelos de lenguaje.

Compartir

En segundo lugar, con una arquitectura más simple, es más importante controlar los datos de entrenamiento.. Hay dos cosas que creo que son importantes aquí: verificaciones y continuaciones. Primero, recordemos la terminología básica en la publicación del blog OpenAI o1:

Nuestro algoritmo de aprendizaje por refuerzo a gran escala enseña al modelo cómo pensar productivamente usando su cadena de pensamiento en un proceso de formación altamente eficiente en datos.

La pregunta clave que surge una y otra vez en el aprendizaje por refuerzo de los círculos de retroalimentación humana en estos días es “¿Qué datos se utilizan realmente para RLHF?”. El RLHF estándar, tal como lo conocíamos por modelos como InstructGPT y Llama 3.1, en realidad se trata principalmente de controlar el estilo y, al mismo tiempo, mejorar marginalmente el rendimiento en algunas capacidades. La señal es muy débil, como se ve en el 80% de los datos de preferencia de Llama 3.1 que son “chat general”.

Lo que hace o1, y hacia lo que se dirigen otros proyectos, es obtener su señal de recompensa explícitamente a partir de resultados mensurables: verificaciones. O1 de OpenAI se entrena en una gran variedad de mensajes en los que hay una respuesta verificable. Pueden ser problemas matemáticos, errores de código con pruebas unitarias, instrucciones con restricciones y otras cosas. Sospecho que una gran proporción de los datos de entrenamiento de o1 son estos, lo que permite la “eficiencia de datos” mencionada anteriormente.

OpenAI sigue entrenando sobre estas indicaciones, a veces el modelo lo hace bien y aprende de eso, y a veces necesita ayuda. Aquí es donde continuaciones entra. Nuevamente, citando la publicación del blog, como lo destaca Sasha Rush:

o1 aprende a perfeccionar su cadena de pensamiento y refinar las estrategias que utiliza. Aprende a reconocer y corregir sus errores. Aprende a dividir los pasos complicados en otros más simples. Aprende a probar un enfoque diferente cuando el actual no funciona.

Todos los datos que mencioné anteriormente son recompensas basadas en resultados. Para llegar allí, OpenAI utiliza una amplia retroalimentación de LLM como juez sobre cadenas de razonamiento intermedias. Los modelos de lenguaje existentes pueden identificar fácilmente dónde falla una cadena de pensamiento y pueden generar un siguiente paso para que el modelo intente completarla correctamente.

Las correcciones y continuaciones están en espíritu muy cerca de las recompensas del proceso. La diferencia clave es que la supervisión que estoy analizando en esta propuesta para o1 no necesita ocurrir en cada paso; puede haber algún conjunto de pasos que se verifican sólo cuando se llega a una respuesta final incorrecta.

Además, es probable que OpenAI tenga otros verificadores generativos (aprendidos) que van más allá de dominios simples como las matemáticas y el código, pero esta área es mucho más confusa. Podría ser un modelo de recompensa muy avanzado, podría ser algo completamente nuevo, no lo sabemos. Aún así, la última cita del blog de OpenAI que destaca Sasha Rush nos mostró lo importante que era el ciclo de retroalimentación de las continuaciones y la RL:

Al entrenar un modelo para el razonamiento, una cosa que inmediatamente me viene a la mente es hacer que los humanos escriban su proceso de pensamiento y se entrenen en él. Cuando vimos que si entrenas el modelo usando RL para generar y perfeccionar su propia cadena de pensamientos, puede hacerlo incluso mejor que si los humanos escribieran cadenas de pensamiento para él. Ese fue el “¡Ajá!” momento en el que realmente podrías escalar esto.

Este es un bucle de datos sintéticos prolongado y prolongado. La parte RL es necesaria para inducir comportamientos creativos, eso realmente creo, y todo el andamiaje que la rodea tiene como objetivo guiar la señal de aprendizaje hacia adelante.

La mejor parte de este punto de vista, que conlleva un conjunto completamente diferente de preguntas de investigación, es que encaja mejor con la famosa frase de Rich Sutton. amarga lección. Al limitar realmente el dominio y la estructura del problema, OpenAI pudo ampliar el cálculo de entrenamiento que gastaron en la etapa de aprendizaje por refuerzo. Sasha Rush destaca esta cita en su charla:

La amarga lección se basa en las observaciones históricas de que 1) los investigadores de IA a menudo han intentado incorporar conocimiento a sus agentes, 2) esto siempre ayuda a corto plazo y es personalmente satisfactorio para el investigador, pero 3) a largo plazo se estanca e incluso inhibe un mayor progreso, y 4) el progreso revolucionario eventualmente llega mediante un enfoque opuesto basado en escalar el cálculo mediante búsqueda y aprendizaje.

Nuevamente volvemos a la búsqueda. Lo que hay que recordar es que los métodos de aprendizaje por refuerzo utilizados durante el entrenamiento son una versión de la exploración de búsqueda para maximizar la recompensa. Dada la diversidad de comportamientos, parece como si OpenAI hiciera que RL pudiera funcionar por más tiempo sin sufrir degradación. Esto indica que tienen una regularización sólida (lo que podría dificultar el aprendizaje) o un conjunto de capacitación amplio y diverso (o, probablemente, ambas cosas).

Con RL, no es necesario que haya una estructura explícita para la búsqueda. tener algo Estilo AlphaZero para una tarea de generación de lenguaje sería muy complicado: no está nada claro cómo un modelo de lenguaje puede generar de manera confiable un paso de razonamiento a la vez mientras se bifurca y obtiene verificación. El lenguaje es confuso, y si lo aceptamos, tal vez lo correcto sea usar solo un modelo y muchas RL. Entonces, para responder Las preguntas de Rush:

¿Crees que están haciendo MCTS durante el entrenamiento?

No.

¿Esa parte surge de forma natural?

Sí, dependiendo de cómo definas “natural”.

Vimos algunos comportamientos RL muy extraños en Tulú 3 dejando nuestro entrenamiento RLVR (otro método que se ajusta solo a partir de las recompensas de resultados) funcionando por más tiempo del útil para el uso general. En concreto, vimos la comportamientos como “espera, déjame comprobar eso” varias veces en una expansión de cadena de pensamiento. Lo que necesitamos es mantener este tipo de entrenamiento manteniendo el comportamiento coherente en una variedad más amplia de tareas.

Tengo la intención de publicar más sobre o1 en los próximos meses; ahora tenemos una larga lista de compañeros, desde Fuegos artificiales F1, Nosotros Forja, DeepSeek R1 Lite, Qwen QwQy otras versiones menores. Estos están mostrando el rango potencial en estos modelos, aunque sigo pensando que la versión de OpenAI es la más robusta con diferencia.

Más allá de esto, abordaré temas como: cómo lo reproduciría (¿lo reproduciré?), cómo veo la literatura, qué esconde OpenAI, cómo las versiones abiertas deberían y serán diferentes, y todos los gustos. Asegúrate de suscribirte y darme tu opinión sobre lo que es más interesante.

Gracias a Hamish Ivison y Dylan Patel por solidificarme la idea de “muestreo” del cálculo del tiempo de prueba. Crédito a Sasha Rush por su excelente charla e intercambios en Twitter.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

4 razones por las que debe apagar el modo de entrenamiento de IA

Published

on

Google vierte grandes cantidades de datos en Géminis para entrenar el chatbot. Gemini recibió capacitación en datos públicos antes de que se volviera ampliamente disponible, pero ahora también está capacitado en sus datos. Cuantos más datos se reúnan, mejor puede hacer de Gemini (en teoría), pero no necesita darle sus datos para usar el servicio.

Es sencillo apagar el entrenamiento de AI de Gemini en su dispositivo. Le mostraremos cómo evitar que Gemini use sus datos, y explicaremos por qué debe hacer esto y limpiar su historial de conversación. Deshabilitar la capacitación de IA en Gemini no hará que el chatbot sea menos efectivo o limitará las características a las que puede acceder.

Relacionado

Gemini Advanced: todo lo que necesita saber sobre la IA premium de Google

La IA premium de Google explicó

4

Google guarda sus datos por defecto por hasta tres años

Es difícil mantenerse al tanto de los permisos de Géminis

Si cree que los términos de servicio de Google son razonables, es posible que desee evitar que Google almacene sus conversaciones en Gemini.

El panorama de la IA está evolucionando rápidamente, y los legisladores tardan en mantener las ramificaciones éticas y legales de la IA generativa.

Si tiene 18 años o más, Gemini ahorra automáticamente su actividad durante 18 meses, después de lo cual se elimina automáticamente. Puede extender esto manualmente hasta tres años si lo desea.

Hasta que los legisladores se pongan al día con el desarrollo de IA, nuestros datos están a merced de compañías como Google y OpenAI. Si Google desea actualizar los Términos de servicio de Gemini para permitir a la empresa un mayor y mayor acceso a sus datos, no hay nada que pueda hacer sobre su actividad pasada.

Desactivar la capacitación de IA en Gemini y eliminar la actividad de su aplicación borrará estos datos de los servicios de Google, pero hay una trampa. Según Google, “los chats pasados ​​que ya han sido revisados ​​o anotados por revisores humanos no se eliminan cuando elimina su actividad”.

Así que recomendamos apagar el entrenamiento de IA ahora. No afectará su experiencia de Géminis y actúa como seguro contra cualquier cambio en los términos de servicio de Gemini.

3

Los empleados de Google pueden leer sus indicaciones

Todo lo que ingresas en Géminis es legible por un humano

Parte inferior de un teléfono que muestra el mensaje Géminis de Google en Android

Gemini recopila y analiza datos de todos sus usuarios y fuentes para mejorarse, pero los empleados de Google también tienen acceso a sus chats. Según el centro de privacidad de Gemini Apps, “Los revisores humanos leen, anotan y procesan sus conversaciones de Gemini Apps”.

Google toma medidas para proteger su privacidad como parte de este proceso. Antes de que los revisores puedan ver o anotar sus conversaciones, las conversaciones se desconectan de su cuenta de Google. Esto significa que los revisores no pueden identificar su cuenta de Google de estas conversaciones a menos que su cuenta de Google se mencione en las conversaciones.

Sin embargo, todo lo que entras en Géminis es legible por un empleado humano. Si olvida o ignora la advertencia de Google de no incluir información confidencial en sus conversaciones con Gemini, está disponible para que un humano lea a menos que elimine su actividad antes de que lo lleven.

Los revisores humanos leen, anotan y procesan sus conversaciones de aplicaciones Gemini

La solución más obvia es no ingresar información o información confidencial que no quiera que otra persona vea en Géminis. Sin embargo, es fácil olvidar esta regla, por lo que es mejor dar el paso adicional para mejorar su privacidad y deshabilitar el entrenamiento de IA y detener el entrenamiento de IA en Gemini.

2

Google puede hacer lo que quiera con sus datos

Tus conversaciones no se mantienen dentro de Géminis

Google no vende sus datos personales, pero el advenimiento de la IA generativa ha enturbiado las aguas sobre cómo se utilizan nuestros datos. Google no está raspando su información personal y la vende a otras compañías, pero la información que ingresa a Gemini no es tan segura de la explotación.

Uno de los mayores problemas con la IA generativa es que está entrenado en el contenido creado por humanos, que no son compensados ​​cuando su contenido finalmente se usa para el contenido creado por AI. Puede ingresar imágenes y archivos en Gemini para su análisis. Una vez que sus datos están allí, Google puede usarlos como desee.

Relacionado

Las empresas deben dejar de usar nuestros datos personales para capacitar a AI

A menudo siento que soy el producto, incluso cuando soy el cliente

En los Términos de servicio de Gemini, usted acepta dejar que Google use todo lo que ingrese en Gemini para mejorar el servicio, pero no se detiene allí. El aviso de privacidad de Gemini Apps establece que sus conversaciones en Géminis se utilizan para “proporcionar, mejorar y desarrollar productos y servicios de Google y tecnologías de aprendizaje automático”.

Por lo tanto, Google puede usar todo lo que ingresa a Gemini con el propósito ambiguo de mejorar sus productos y servicios. Gracias a las capacidades de Gemini, estamos ingresando información más detallada en Géminis que nunca con Google Search. Esto amplía en gran medida la gama de datos que Google puede usar para ganar dinero. ¿Necesita el consejo de Gemini sobre un proyecto creativo? Deshabilite la capacitación de IA para evitar que Google use su proyecto antes de que pueda.

Usar su contenido sin compensación no es un problema exclusivo de Gemini, pero puede ingresar su propio contenido creativo sin preocuparse de que Google lo estafa deshabilitando la capacitación de IA.

1

Géminis tiene acceso a otros productos de Google

No piense que su información es segura solo porque no lo ha ingresado en Géminis

Pregunte Función de fotos en Google Photos

Fuente: Google

Google no accede directamente a sus datos almacenados en sus productos y servicios (por ejemplo, Gmail) para entrenar a Gemini, pero esto no significa que no sea seguro.

Gemini está integrado en todas las aplicaciones de Google. Puede usar Gemini para resumir un documento en Google Drive, crear un esquema en Google Docs, Redactar correos electrónicos en Gmail y mucho más.

Cada vez que usa Gemini para una de estas tareas, Gemini recopila el contenido relevante, al igual que sus conversaciones. Si bien puede intentar limitar los datos de Gemini que se reúne solo con los documentos que está contento de que Google raspe, es difícil evitar que Gemini se limite a un documento a la vez.

Gemini en Gmail, documentos y más se limita a los niveles premium de Google One, por lo que si no está suscrito a este plan, no necesita preocuparse por Google usando Gemini para raspar sus correos electrónicos y documentos. Sin embargo, si está suscrito a este plan, recomendamos deshabilitar la capacitación de IA incluso si no usa activamente esta función.

Cómo deshabilitar el entrenamiento de IA en Géminis

Solo necesita apagar el entrenamiento de IA en un dispositivo para deshabilitarlo en todos los dispositivos donde se registra en Géminis. Le mostraremos cómo deshabilitar Gemini en dispositivos móviles y web.

Detener el entrenamiento de IA en móvil

  1. Abra la aplicación Géminis.

  2. Toque su foto de perfil en la esquina superior derecha de su pantalla

  3. Grifo Actividad de las aplicaciones de Géminis.

  4. Grifo Apagar Junto a la actividad de las aplicaciones de Géminis.

  5. Grifo Apagar y eliminar la actividad Desde el menú desplegable.

Detener la capacitación de IA en la web

  1. Dirígete a la aplicación web de Géminis

  2. Hacer clic Actividad en la esquina inferior izquierda de su pantalla.

    Menú lateral de Géminis en la web

  3. Hacer clic Apagar Junto a la actividad de las aplicaciones de Géminis.

  4. Hacer clic Apagar y eliminar la actividad Desde el menú desplegable.

    Descargo de responsabilidad de actividades de Gemini Apps en una pestaña del navegador

Usa Géminis en tus términos

Deshabilitar la capacitación de IA en Géminis es el paso más grande que puede hacer para mejorar su privacidad con el chatbot. Géminis es una herramienta poderosa, y a pesar de las implicaciones legales y éticas de la IA, no desaparece en el corto plazo. Recomendamos deshabilitar la capacitación de IA para que pueda estar más seguro en su uso del chatbot sin limitarse.

Relacionado

5 razones por las que no estoy renovando mi suscripción avanzada de Géminis

No me has convencido, Google

Continue Reading

Noticias

Acabo de probar Chatgpt vs. Géminis con 5 indicaciones: aquí está el ganador

Published

on

En nuestra próxima ronda de AI Madness, ChatGPT y Gemini compiten por la corona con siete nuevos indicaciones que prueban todo, desde la resolución de problemas técnicos hasta la narración creativa.

Ambos pesos pesados ​​están disponibles como aplicaciones independientes, y los usuarios ya no necesitan una cuenta para acceder a ChatGPT o Gemini.

Continue Reading

Noticias

El mejor enfrentamiento de la búsqueda de IA: enfrenté la nueva herramienta de búsqueda de Claude contra la búsqueda de chatgpt, la perplejidad y Géminis, los resultados podrían sorprenderte

Published

on

Después de probar y comparar chatbots de IA y sus características durante años, he desarrollado algo de sexto sentido para cuando estos compañeros digitales saben de qué están hablando y cuándo están faroleando.

La mayoría de ellos pueden buscar respuestas en línea, lo que ciertamente ayuda, pero la combinación de búsqueda e IA puede conducir a algunas respuestas sorprendentemente perspicaces (y algunas tangentes menos perspicaces).

Continue Reading

Trending