Noticias

Conozca a Sora: la IA de texto a video de OpenAI

Published

1 año ago

18 enero, 2025

La IA generativa ha avanzado rápidamente. Las imágenes generadas por IA ahora son fotorrealistas y las herramientas de IA generativa están integradas en teléfonos Android compactos. Sin embargo, los videos generados por IA se han quedado atrás en calidad con respecto a las imágenes generadas por IA. Sora de OpenAI tiene como objetivo cerrar esta brecha, estableciendo un nuevo punto de referencia para los videos generados por IA. Esta guía proporciona una descripción general de Sora y sus características clave.

Relacionado

¿Qué es la IA generativa?

Un agente de la voluntad humana, un amplificador de la cognición humana. Descubra el poder de la IA generativa

La historia y la inspiración detrás de Sora

Sora, presentado por OpenAI en febrero de 2024 y lanzado públicamente en diciembre de 2024, es un modelo de IA que genera vídeos a partir de descripciones de texto. Disponible para usuarios de ChatGPT Plus y Pro, el nombre de Sora (una palabra japonesa que significa “cielo”) refleja su potencial creativo ilimitado.

El equipo de desarrollo, incluidos los investigadores Tim Brooks y Bill Peebles, eligió este nombre para representar la visión del modelo. OpenAI describe a Sora como un paso hacia la creación de sistemas de inteligencia artificial que comprendan, simulen e interactúen con el mundo físico.

Relacionado

¿Qué es OpenAI?

OpenAI está iniciando la revolución de la IA con proyectos audaces y alianzas visionarias

Desglosando el proceso de modelado híbrido de Sora

Sora utiliza un enfoque híbrido que combina modelado de difusión y redes de transformadores. El proceso comienza con ruido aleatorio, similar a la estática de un televisor, que se refina gradualmente hasta formar fotogramas de vídeo detallados. La red de transformadores maneja complejidades espaciales y temporales, como diferentes duraciones y resoluciones de video.

Este diseño híbrido aprovecha los transformadores para el diseño y la composición, mientras que los modelos de difusión añaden texturas y detalles finos. Sobre la base de los avances de DALL·E y GPT, Sora también emplea una técnica de recaption que genera subtítulos detallados para datos de entrenamiento visual, mejorando su capacidad para seguir las instrucciones del usuario al crear videos.

Lo que puede hacer el traje de edición de vídeo de Sora

Sora ofrece un conjunto de herramientas diseñadas para facilitar la edición de videos y la narración de historias. Aquí hay una descripción general de las características de Sora.

remezclar

Modifique elementos de videos existentes preservando la narrativa central. Ajuste los colores, reemplace fondos y modifique las imágenes para alinearlos con temas u objetivos creativos.

Recortar

Recorte o extienda segmentos de vídeo para lograr un ritmo y un flujo precisos. Seleccione momentos clave y Sora generará imágenes adicionales fluidas para cerrar las brechas.

Bucle

Cree videoclips repetidos para una reproducción continua. Ajuste los fotogramas inicial y final, y Sora garantiza transiciones suaves con fotogramas adicionales si es necesario.

Guión gráfico

Planifique cada detalle del video utilizando una línea de tiempo y una herramienta de secuenciación de acciones. Las tarjetas de título sirven como un espacio de trabajo narrativo y la línea de tiempo muestra la secuencia del evento. Es esencial que haya un espacio adecuado entre las tarjetas del guión gráfico. Las tarjetas colocadas demasiado cerca pueden provocar cortes discordantes, mientras que demasiado espacio añade detalles no deseados.

Mezcla

Fusiona dos vídeos en una sola composición, combinando elementos visuales, colores o estilos. Utilice la herramienta Curva para controlar cómo los clips influyen en el resultado final a lo largo del tiempo.

El enfoque de OpenAI para gestionar la seguridad en Sora

Sora introdujo desafíos éticos, de seguridad y sociales. Su capacidad para generar vídeos muy realistas a partir de indicaciones de texto genera preocupación sobre los deepfakes. Estos vídeos contribuyen a la desinformación y dañan la confianza en el contenido digital. También existe un problema ético con las representaciones no autorizadas de personas, ya que suponen un riesgo para la privacidad y un daño psicológico.

Para abordar estas preocupaciones, OpenAI implementó múltiples medidas de seguridad. Según su tarjeta del sistema, Sora está sujeto a estrictas restricciones de contenido. Bloquea vídeos que presentan violencia extrema, material explícito, imágenes que incitan al odio y el uso no autorizado de propiedad intelectual o imágenes de celebridades. También limita las representaciones de personas reales para reducir los riesgos de suplantación de identidad. Las medidas de transparencia incluyen marcas de agua visibles e invisibles (metadatos C2PA) en los videos generados.

A pesar de las precauciones de OpenAI, Sora no está disponible en el Reino Unido, Suiza y el Espacio Económico Europeo debido a barreras legales. OpenAI está trabajando activamente para resolver estos problemas.

Relacionado

¿Qué es la IA constitucional?

¿Y es la respuesta para implementar la IA de forma segura?

Las limitaciones de Sora

Sora tiene planes de suscripción Pro y Plus. El plan Pro, con un precio de $200 por mes, viene con 10,000 créditos para hasta 500 videos por mes, con una duración máxima de video de 20 segundos y una resolución de hasta 1080p. El plan Plus cuesta $20 por mes y ofrece 1,000 créditos para hasta 50 videos, con un límite de video de 5 segundos y una resolución limitada a 720p. Según los usuarios, el uso real a menudo no alcanza los límites anunciados y depende de los parámetros de edición de vídeo.

Desde una perspectiva técnica, Sora lucha con la física y el movimiento precisos. Funciona bien con acciones básicas como caminar, pero falla con movimientos complejos como bailar o gimnasia. Las interacciones entre objetos pueden ser inconsistentes. A veces, los sujetos cambian de forma poco natural o desaparecen. Al igual que los modelos de imágenes, lograr resultados óptimos requiere un refinamiento rápido e iterativo.

Explorando las diversas aplicaciones de Sora

Sora todavía está en desarrollo, pero tiene un potencial enorme. Simplificará la creación de videos para diversos propósitos. Permite a los usuarios producir vídeos de calidad profesional sin necesidad de conocimientos técnicos ni equipos costosos.

Los cineastas y diseñadores pueden utilizar Sora para dar vida rápidamente a conceptos, desarrollar guiones gráficos, acelerar los flujos de trabajo y minimizar costos. En investigación y desarrollo, Sora genera datos sintéticos para respaldar el entrenamiento de modelos de aprendizaje automático e inteligencia artificial y proporciona herramientas para visualizar conceptos científicos complejos.

Sora también puede simular escenarios de emergencia realistas en la atención médica, la aviación y otras industrias, reduciendo los gastos asociados con las simulaciones físicas tradicionales.

Relacionado

¿Cómo funciona el aprendizaje semisupervisado en Machine Learning?

Los datos están por todas partes y no hay ni una gota para beber; Afortunadamente, el aprendizaje semisupervisado puede salvar el día.

Los competidores de Sora en IA de texto a vídeo

Sora se enfrenta a la competencia de plataformas como Runway, Google Veo y Luma AI, cada una de las cuales ofrece características únicas en el campo emergente de conversión de texto a video. La suscripción Gen-3 Alpha de Runway cuesta 144 dólares al año, mientras que su versión Gen-2 es gratuita. Google Veo 2, cuyo lanzamiento se prevé próximamente, recibió los primeros elogios de usuarios y creadores, incluido Donald Glover. Dream Machine de Luma AI permite hasta 20 generaciones diarias gratuitas, con planes premium con un precio de $399,99 mensuales para un mayor uso y acceso prioritario.

Noticias de Inteligencia Artificial

Noticias