Connect with us

Noticias

OpenAI estabiliza los modelos generativos de tiempo continuo: cómo el marco innovador de TrigFlow redujo la brecha con los modelos de difusión líderes utilizando solo dos pasos de muestreo

Published

on

Los modelos de inteligencia artificial (IA) generativa están diseñados para crear datos realistas y de alta calidad, como imágenes, audio y video, basados ​​en patrones en grandes conjuntos de datos. Estos modelos pueden imitar distribuciones de datos complejas, produciendo contenido sintético que se asemeja a muestras. Una clase ampliamente reconocida de modelos generativos es el modelo de difusión. Ha logrado generar imágenes y videos invirtiendo una secuencia de ruido agregado a una muestra hasta lograr una salida de alta fidelidad. Sin embargo, los modelos de difusión suelen requerir de decenas a cientos de pasos para completar el proceso de muestreo, lo que exige mucho tiempo y recursos computacionales. Este desafío es especialmente pronunciado en aplicaciones donde el muestreo rápido es esencial o donde se deben generar muchas muestras simultáneamente, como en escenarios en tiempo real o implementaciones a gran escala.

Una limitación importante de los modelos de difusión es la carga computacional del proceso de muestreo, que implica invertir sistemáticamente una secuencia de ruido. Cada paso de esta secuencia es computacionalmente costoso y el proceso introduce errores cuando se discretiza en intervalos de tiempo. Los modelos de difusión en tiempo continuo ofrecen una forma de abordar este problema, ya que eliminan la necesidad de estos intervalos y, por tanto, reducen los errores de muestreo. Sin embargo, los modelos de tiempo continuo no se han adoptado ampliamente debido a la inestabilidad inherente durante el entrenamiento. La inestabilidad dificulta el entrenamiento de estos modelos a gran escala o con conjuntos de datos complejos, lo que ha ralentizado su adopción y desarrollo en áreas donde la eficiencia computacional es crítica.

Los investigadores han desarrollado recientemente métodos para hacer que los modelos de difusión sean más eficientes, con enfoques como la destilación directa, la destilación adversaria, la destilación progresiva y la destilación de puntuación variacional (VSD). Cada método ha demostrado potencial para acelerar el proceso de muestreo o mejorar la calidad de la muestra. Sin embargo, estas técnicas enfrentan desafíos prácticos, que incluyen una alta sobrecarga computacional, configuraciones de entrenamiento complejas y limitaciones en la escalabilidad. Por ejemplo, la destilación directa requiere capacitación desde cero, lo que añade importantes costos de tiempo y recursos. La destilación adversaria presenta desafíos cuando se utilizan arquitecturas GAN (Generative Adversarial Network), que a menudo necesitan ayuda con la estabilidad y coherencia en la salida. Además, aunque son eficaces para modelos de pasos cortos, la destilación progresiva y la VSD suelen producir resultados con diversidad limitada o muestras suaves y menos detalladas, especialmente en niveles de orientación altos.

Un equipo de investigación de OpenAI presentó un nuevo marco llamado flujo trigonométricodiseñado para simplificar, estabilizar y escalar modelos de consistencia de tiempo continuo (CM) de manera efectiva. La solución propuesta se dirige específicamente a los problemas de inestabilidad en el entrenamiento de modelos de tiempo continuo y agiliza el proceso incorporando mejoras en la parametrización del modelo, la arquitectura de red y los objetivos de entrenamiento. TrigFlow unifica los modelos de difusión y consistencia al establecer una nueva formulación que identifica y mitiga las principales causas de la inestabilidad, permitiendo que el modelo maneje tareas de tiempo continuo de manera confiable. Esto permite que el modelo logre un muestreo de alta calidad con costos computacionales mínimos, incluso cuando se escala a grandes conjuntos de datos como ImageNet. Utilizando TrigFlow, el equipo entrenó con éxito un modelo de 1.500 millones de parámetros con un proceso de muestreo de dos pasos que alcanzó puntuaciones de alta calidad con costos computacionales más bajos que los métodos de difusión existentes.

En el centro de TrigFlow hay una redefinición matemática que simplifica el flujo de probabilidad ODE (ecuación diferencial ordinaria) utilizado en el proceso de muestreo. Esta mejora incorpora normalización de grupo adaptativa y una función objetivo actualizada que utiliza ponderación adaptativa. Estas características ayudan a estabilizar el proceso de entrenamiento, permitiendo que el modelo funcione continuamente sin errores de discretización que a menudo comprometen la calidad de la muestra. El enfoque de TrigFlow para el acondicionamiento del tiempo dentro de la arquitectura de red reduce la dependencia de cálculos complejos, lo que hace factible escalar el modelo. El objetivo de entrenamiento reestructurado templa progresivamente los términos críticos en el modelo, permitiéndole alcanzar la estabilidad más rápido y a una escala sin precedentes.

El modelo, denominado “sCM” (modelo de consistencia simple, estable y escalable), demostró resultados comparables a los modelos de difusión de última generación. Por ejemplo, logró una distancia de inicio de Fréchet (FID) de 2,06 en CIFAR-10, 1,48 en ImageNet 64×64 y 1,88 en ImageNet 512×512, lo que reduce significativamente la brecha entre los mejores modelos de difusión, incluso cuando solo se realizan dos pasos de muestreo. fueron utilizados. El modelo de dos pasos mostró una mejora FID de casi el 10 % con respecto a enfoques anteriores que requerían muchos más pasos, lo que marca un aumento sustancial en la eficiencia del muestreo. El marco TrigFlow representa un avance esencial en la escalabilidad del modelo y la eficiencia computacional.

Esta investigación ofrece varias conclusiones clave y demuestra cómo abordar las ineficiencias y limitaciones computacionales de los modelos de difusión tradicionales a través de un modelo de tiempo continuo cuidadosamente estructurado. Al implementar TrigFlow, los investigadores estabilizaron los CM de tiempo continuo y los ampliaron a conjuntos de datos y tamaños de parámetros más grandes con compensaciones computacionales mínimas.

Las conclusiones clave de la investigación incluyen:

  • Estabilidad en modelos de tiempo continuo: TrigFlow introduce estabilidad en los modelos de consistencia de tiempo continuo, un área históricamente desafiante, que permite el entrenamiento sin desestabilización frecuente.
  • Escalabilidad: El modelo escala con éxito hasta 1.500 millones de parámetros, el mayor entre sus pares para modelos de consistencia en tiempo continuo, lo que permite su uso en la generación de datos de alta resolución.
  • Muestreo eficiente: Con solo dos pasos de muestreo, el modelo sCM alcanza puntuaciones FID comparables a los modelos que requieren amplios recursos informáticos, alcanzando 2,06 en CIFAR-10, 1,48 en ImageNet 64×64 y 1,88 en ImageNet 512×512.
  • Eficiencia computacional: La ponderación adaptativa y el acondicionamiento de tiempo simplificado dentro del marco TrigFlow hacen que el modelo sea eficiente en cuanto a recursos, lo que reduce la demanda de muestreo intensivo en computación, lo que puede mejorar la aplicabilidad de los modelos de difusión en entornos en tiempo real y a gran escala.

En conclusión, este estudio representa un avance fundamental en el entrenamiento de modelos generativos, abordando la estabilidad, la escalabilidad y la eficiencia del muestreo a través del marco TrigFlow. La arquitectura TrigFlow y el modelo sCM del equipo OpenAI abordan eficazmente los desafíos críticos de los modelos de consistencia de tiempo continuo, presentando una solución estable y escalable que rivaliza con los mejores modelos de difusión en rendimiento y calidad, al tiempo que reduce significativamente los requisitos computacionales.


Mira el Papel y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Upcoming Live Webinar- Oct 29, 2024] La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Creé una presentación completa usando Gemini en Google Diaides, así es como fue

Published

on

Google Slides es una herramienta poderosa, pero crear una presentación completa puede llevar mucho tiempo. Recientemente, Google introdujo la integración de Gemini en diapositivas y todas las aplicaciones del espacio de trabajo. Ahora, solo necesita indicaciones de texto para crear presentaciones atractivas e imágenes de alta calidad para sus diapositivas. Tuve que verlo yo mismo, y decidí experimentar con Géminis y lo encargué con la construcción de una presentación completa.

En esta publicación, comparto mi viaje y revelo cómo Gemini manejó el desafío y si ofrece la promesa de presentaciones sin esfuerzo.

Relacionado

Google Gemini: Todo lo que necesita saber sobre la IA multimodal de próxima generación de Google

Google Gemini está aquí, con un enfoque completamente nuevo para la IA multimodal

Acceso a Géminis en las diapositivas de Google: requisitos

Usando Géminis en las diapositivas de Google

Antes de encender las hojas de Google en la web, repasemos los requisitos. Si bien varios modelos Gemini son gratuitos de descargar y usar, pagará más para desbloquear el asistente de IA en las aplicaciones de productividad de Google.

Debe comprar el plan avanzado de Gemini a $ 20 por mes. Después de eso, la opción Géminis aparece en Docs, Hojas, Gmail, Google Drive y Slides. Google también ofrece un mes de prueba gratuita para usuarios elegibles.

Dado que Google Slides es una solución web, puede explorar la integración de Gemini en escritorios de Windows, Mac y Chromebooks.

Explorando Géminis en las diapositivas de Google

Genere diapositivas utilizando un mensaje de texto

Después de habilitar Gemini en Google Slides, es hora de verificarlo en acción. En el siguiente ejemplo, crearé una presentación sobre los beneficios de un estilo de vida saludable. Mi objetivo es cubrir los beneficios de la nutrición, el ejercicio regular, el bienestar mental y el manejo del estrés. Siga los pasos a continuación.

  1. Inicie las diapositivas de Google en la web e inicie sesión con los detalles de su cuenta de Google. Comience con una presentación en blanco.

  2. Abra Géminis desde la esquina superior derecha y escriba un aviso.

Escribir un aviso es una parte crucial de su proceso de presentación. Dado que es un tema amplio y adaptable, sea lo más descriptivo posible. En nuestro caso, escribiré un aviso a continuación para mi diapositiva de introducción.

Genere una diapositiva con el título “Los beneficios de un estilo de vida saludable”. Agregue una definición breve de un estilo de vida saludable, enfatizando el equilibrio del bienestar físico, mental y nutricional.

Esto es lo que se le ocurrió a Géminis. Puede volver a intentarlo si no está satisfecho con los resultados y haga clic en Insertar para agregarlo.

Géminis creando diapositivas en las diapositivas de Google

Ahora, haga clic + + Para agregar una nueva diapositiva y continuar escribiendo indicaciones para generar nuevas diapositivas para su presentación.

Cree una diapositiva titulada “Nutrición: alimentar su cuerpo”. Agregue información sobre la importancia de las frutas y verduras.

Géminis creando una diapositiva nutritiva

A diferencia de Copilot en PowerPoint, no puede crear múltiples diapositivas a la vez. Debes describir cada diapositiva por separado. Por lo tanto, asegúrese de planificar el esquema de su presentación.

Después de eso, creé cuatro diapositivas nuevas utilizando las indicaciones de texto a continuación.

Cree una diapositiva titulada, “Ejercicio: moverse para un usted más saludable”. Agregue información sobre la cantidad recomendada de ejercicio por semana.

Usar Géminis para crear una presentación

Crea una diapositiva titulada, “Bienestar mental: encontrar tu paz interior”. Agregue puntos de bala en buenos hábitos de sueño.

Diapositiva de bienestar mental para diapositivas de Google

Genere una diapositiva que enumere los beneficios de un estilo de vida saludable, que incluye un aumento de la energía, un mejor estado de ánimo y un mejor sueño.

Beneficios de la diapositiva de estilo de vida saludable

Cree una diapositiva de conclusión con pasos prácticos para adoptar un estilo de vida más saludable. Incluir puntos de bala orientados a la acción.

Use Géminis para crear conclusión diapositiva

Hubo algunos casos en los que no estaba satisfecho con los resultados. Entonces, le pedí a Gemini que recreara esas diapositivas. Además, no te sorprenderá con diseños de diapositivas llamativas y animaciones. Debe agregarlos manualmente y completar su presentación.

En cualquier momento, puede escribir @Nombre del archivo Y solicite a Gemini que se refiera a un documento de su cuenta de Google Drive. Por ejemplo, si escribió una dieta vegetariana en un documento, puede pedirle a Gemini que se refiera a ella para sus diapositivas de presentación.

Estás usando diapositivas generadas por AI. La precisión puede recibir un éxito cuando se trata de temas complejos como IA, fotografía computacional, aprendizaje automático y más. Compruebe dos veces antes de compartir la presentación con otros.

Relacionado

Google Gemini: 5 maneras de usar el asistente a día a día de Google con IA

Puede hacer que muchas tareas cotidianas sean mucho más fáciles

Crear e insertar imágenes con Gemini

No tenía idea de que Géminis podía crear imágenes basadas en indicaciones de texto. Es un gran ahorro de tiempo, ya que no necesita buscar imágenes en la web para obtener imágenes adecuadas para su presentación. Generé un par de imágenes relevantes utilizando las indicaciones de texto a continuación.

Una imagen de una placa equilibrada con proteína magra, granos integrales y verduras.

Generar una imagen con Géminis

Una fotografía de primer plano de un vaso de agua con rebanadas de limón y pepino.

Cree una imagen usando Gemini en Google Diagras

Gemini le ofrece cuatro opciones de imagen para sus diapositivas. Puede verlos e insertarlos en sus diapositivas.

Géminis hizo mis diapositivas

Géminis en Google Slides abrió mis ojos al potencial de la IA en la creación de presentación. Si bien no es un reemplazo perfecto para la creatividad humana y el pensamiento estratégico, es una herramienta poderosa para racionalizar el proceso, especialmente para elaborar borradores iniciales y imágenes llamativas.

Aún así, la supervisión humana es crucial, pero si tiene plazos ajustados o desea explorar nuevas formas de crear diapositivas atractivas, pruebe a Gemini. Gemini Advanced desbloquea el asistente de IA de Google en otras aplicaciones de productividad como Google Sheets. Así es como puedes aumentar tus hojas de cálculo con Gemini.

Continue Reading

Noticias

Google Assistant Transitions a Gemini: cambios clave por delante

Published

on

Google Assistant está evolucionando a Géminis, trayendo potentes nuevas capacidades de IA pero también descontinuando algunas características favoritas. Si usa el Asistente de Google para establecer temporizadores, reproducir música o controlar su hogar inteligente, prepárese para algunas interrupciones significativas a medida que la compañía comienza a reemplazar al asistente de nueve años con su chatbot Gemini más nuevo, más potente y alimentado por IA. Este artículo describirá los cambios clave que puede esperar, ayudándole a prepararse para la transición y comprender lo que será diferente.

Gemini representa un salto gigante en la capacidad en comparación con el Asistente de Google. Podrá chatear con Gemini de manera similar a la forma en que hablas con Google Assistant ahora, pero como se basa en modelos de lenguaje grande (LLM) con AI, Gemini puede ser mucho más conversacional y útil, capaz de realizar tareas más desafiantes y capaz de adaptarle sus respuestas específicamente a usted. Google ya ha comenzado la transición a Gemini. Los teléfonos inteligentes son los primeros en cambiar y serán seguidos por altavoces inteligentes, televisores, otros dispositivos domésticos, dispositivos portátiles y automóviles en los próximos meses. Los teléfonos inteligentes, con algunas excepciones importantes, se habrán mudado a Gemini por completo a fines de 2025, ya que “el asistente clásico de Google ya no se puede acceder en la mayoría de los dispositivos móviles o disponible para nuevas descargas en tiendas de aplicaciones móviles”, según Google.

Continue Reading

Noticias

Cómo se puede mejorar la investigación profunda de Chatgpt con 8 características clave

Published

on

La herramienta de investigación profunda de Chatgpt es fantástica para profundizar en casi cualquier tema que elija, pero aún necesita algunas mejoras para ser realmente útiles. Utilizo investigaciones profundas todo el tiempo y creo que sería mucho mejor con estas características adicionales.

1

Parámetros personalizables

Cuando uso la investigación de chatgpt profunda, normalmente respondo preguntas de seguimiento para darle a la herramienta más contexto. Sin embargo, desearía poder usar parámetros personalizables en su lugar.

Imaginaría que esta característica funcione como filtros al comprar en línea. Me encantaría elegir cuántos recursos quiero que se analice ChatGPT, junto con los plazos publicados. Además, sería genial si pudiera buscar en función de diferentes palabras clave.

Los parámetros personalizables mantendrían mi investigación mucho más organizada. Siento que los resultados valdrían la pena el tiempo que lleva a ChatGPT realizar investigaciones profundas también. Hasta que esto suceda, hay al menos formas en que puede obligar a ChatGPT a usar fuentes de alta calidad.

2

Opciones de diseño de investigación

La función de investigación profunda de ChatGPT puede establecer información de múltiples maneras. Por ejemplo, utilizará tablas al comparar estadísticas u otros aspectos. En otros casos, la herramienta establecerá información en subsecciones integrales.

Si bien varias opciones de diseño son buenas, desearía que ChatGPT me permita elegir cómo quiero que presente información. A veces, veo contenido presentado en forma de oración cuando prefiero usar tablas.

A veces uso las indicaciones para pedirle a ChatGPT que presente información en mi formato preferido, pero desafortunadamente, no siempre escucha.

3

Una asignación mensual más grande

Quizás mi mayor queja con la herramienta de investigación profunda de Chatgpt es lo fácil que es usar sus créditos mensuales. Aunque esto está bien para los usuarios casuales, 10 consultas mensuales no son suficientes para las personas que regularmente necesitan realizar una investigación integral. Revisé mis consultas en dos días.

Podía entender diez consultas mensuales para usuarios gratuitos; En estos casos, en realidad creo que sería un buen valor. Sin embargo, como alguien que paga $ 20 por mes por ChatGPT, no puedo evitar sentir que no me dan el mejor servicio posible.

Quedarse sin solicitudes en chatgpt

Por lo menos, creo que 15-20 consultas mensuales son justas para un plan positivo. Aumentaría aún más estas asignaciones para suscripciones de nivel superior. Operai podría incentivar a las personas a registrarse para estos planes al hacerlo, lo que resulta en una mejor experiencia del usuario y un aumento de los ingresos.

4

Una sección separada en chatgpt

Utilizo ChatGPT para múltiples conversaciones, ya sea que esté planeando una nueva parte de mi vida o quiero trabajar a través de mis pensamientos actuales. A medida que creo más chats, la interfaz se vuelve torpe y desorganizada. Molesto, no tengo forma de diferenciar entre conversaciones y discusiones ordinarias en las que he usado investigaciones profundas.

Si bien puedo crear nuevos proyectos a través de la barra lateral, prefiero que ChatGPT organice automáticamente mis conversaciones con una investigación profunda. Esta sería una mejora efectiva para la interfaz de usuario de ChatGPT, y no sería particularmente difícil de implementar.

Incluso si la aplicación no tuviera una sección separada, un diferenciador, como un ícono, sería útil.

5

Integración con GPTS personalizados

Los GPT personalizados son la función más subestimada de ChatGPT. Me encanta lo fácil que son para obtener el tipo de respuesta exacto que estaba buscando, y hay útiles GPT personalizados para todo tipo de intereses. Pero desafortunadamente, actualmente no puede integrarlos con la función de investigación profunda.

Siento que las respuestas serían mucho más precisas si tuvieran el contexto de GPT personalizados. Esto es particularmente cierto, considerando que algunos de mis chats normales tienen múltiples temas.

GPT personalizado como asistente de programación

No sé cómo sería posible porque imagino que los dos programas entrarían en conflicto. Pero si hubiera una manera de integrar investigaciones profundas y GPT personalizados, no veo cómo cualquier otra herramienta de IA podría competir en esta área.

6

La capacidad de dividir el texto en trozos más pequeños

He comparado la investigación profunda de ChatGPT con herramientas similares, como el equivalente de Microsoft Copilot. Cuando se trata de respuestas detalladas, la investigación profunda se encuentra en la cabeza y los hombros por encima de su competencia. Pero al mismo tiempo, a veces veo enormes párrafos una vez que la investigación ha concluido.

Encontrar información de la dieta en Chatgpt Investigación profunda

La lectura de Skim en una pantalla es mucho más difícil que con un libro, y a veces pierdo los puntos clave en la investigación. Cuando esto sucede, la investigación tarda más de lo que debería. Romper el texto en trozos más pequeños sería una solución simple pero efectiva.

Si todo el texto es realmente importante, ChatGPT podría dividirlo en más subsecciones. De esa manera, podría identificar la información más esencial fácilmente.

7

La opción de excluir sitios web específicos

La información inexacta es uno de los muchos grandes problemas con ChatGPT, y lamentablemente, esto se extiende a la función de investigación profunda. Puedo examinar ciertos sitios web al investigar a través de motores de búsqueda, pero este no es el caso cuando se utiliza una investigación profunda, lo que significa que debo tener mucho cuidado para verificar los recursos.

He visto características similares en otros tipos de aplicaciones, como bloqueadores de sitios web. La forma en que veo esto, los usuarios podrían ingresar a la URL para excluir un sitio de la búsqueda. Me imagino que esto aumentaría el tiempo que lleva completar estas tareas, pero sería un gran éxito.

8

Audio

ChatGPT tiene algunas características de voz geniales, pero ninguna se aplica a una investigación profunda. Tengo que escribir indicaciones de texto y recibo respuestas escritas. Si bien normalmente estoy contento con estas búsquedas, a veces me gustaría usar audio.

Cambiar la voz del altavoz en el modo de voz en chatgpt.

Además de hablar por una investigación profunda, agradecería las respuestas escritas. Me encantaría que la herramienta me cuente sobre sus hallazgos y proporcione una transcripción más tarde. Esto sería interactivo y beneficioso para las personas que aprenden mejor a través de la escucha que la lectura.

Operai inevitablemente agregará nuevas características a la herramienta de investigación profunda de ChatGPT a su debido tiempo, y creo que debería priorizar algunas adiciones simples pero efectivas. Los parámetros personalizables conducirían a hallazgos más precisos, y tener más control sobre el diseño de información también sería bueno.

Continue Reading

Trending