Connect with us

Noticias

Conozca a Sora: la IA de texto a video de OpenAI

Published

on

La IA generativa ha avanzado rápidamente. Las imágenes generadas por IA ahora son fotorrealistas y las herramientas de IA generativa están integradas en teléfonos Android compactos. Sin embargo, los videos generados por IA se han quedado atrás en calidad con respecto a las imágenes generadas por IA. Sora de OpenAI tiene como objetivo cerrar esta brecha, estableciendo un nuevo punto de referencia para los videos generados por IA. Esta guía proporciona una descripción general de Sora y sus características clave.



Relacionado

¿Qué es la IA generativa?

Un agente de la voluntad humana, un amplificador de la cognición humana. Descubra el poder de la IA generativa



La historia y la inspiración detrás de Sora

Sora, presentado por OpenAI en febrero de 2024 y lanzado públicamente en diciembre de 2024, es un modelo de IA que genera vídeos a partir de descripciones de texto. Disponible para usuarios de ChatGPT Plus y Pro, el nombre de Sora (una palabra japonesa que significa “cielo”) refleja su potencial creativo ilimitado.


El equipo de desarrollo, incluidos los investigadores Tim Brooks y Bill Peebles, eligió este nombre para representar la visión del modelo. OpenAI describe a Sora como un paso hacia la creación de sistemas de inteligencia artificial que comprendan, simulen e interactúen con el mundo físico.

Relacionado

¿Qué es OpenAI?

OpenAI está iniciando la revolución de la IA con proyectos audaces y alianzas visionarias

Desglosando el proceso de modelado híbrido de Sora

Sora utiliza un enfoque híbrido que combina modelado de difusión y redes de transformadores. El proceso comienza con ruido aleatorio, similar a la estática de un televisor, que se refina gradualmente hasta formar fotogramas de vídeo detallados. La red de transformadores maneja complejidades espaciales y temporales, como diferentes duraciones y resoluciones de video.


Este diseño híbrido aprovecha los transformadores para el diseño y la composición, mientras que los modelos de difusión añaden texturas y detalles finos. Sobre la base de los avances de DALL·E y GPT, Sora también emplea una técnica de recaption que genera subtítulos detallados para datos de entrenamiento visual, mejorando su capacidad para seguir las instrucciones del usuario al crear videos.

Lo que puede hacer el traje de edición de vídeo de Sora

Sora ofrece un conjunto de herramientas diseñadas para facilitar la edición de videos y la narración de historias. Aquí hay una descripción general de las características de Sora.

remezclar

Modifique elementos de videos existentes preservando la narrativa central. Ajuste los colores, reemplace fondos y modifique las imágenes para alinearlos con temas u objetivos creativos.

Recortar

Recorte o extienda segmentos de vídeo para lograr un ritmo y un flujo precisos. Seleccione momentos clave y Sora generará imágenes adicionales fluidas para cerrar las brechas.


Bucle

Cree videoclips repetidos para una reproducción continua. Ajuste los fotogramas inicial y final, y Sora garantiza transiciones suaves con fotogramas adicionales si es necesario.

Guión gráfico

Planifique cada detalle del video utilizando una línea de tiempo y una herramienta de secuenciación de acciones. Las tarjetas de título sirven como un espacio de trabajo narrativo y la línea de tiempo muestra la secuencia del evento. Es esencial que haya un espacio adecuado entre las tarjetas del guión gráfico. Las tarjetas colocadas demasiado cerca pueden provocar cortes discordantes, mientras que demasiado espacio añade detalles no deseados.


Mezcla

Fusiona dos vídeos en una sola composición, combinando elementos visuales, colores o estilos. Utilice la herramienta Curva para controlar cómo los clips influyen en el resultado final a lo largo del tiempo.

El enfoque de OpenAI para gestionar la seguridad en Sora

Sora introdujo desafíos éticos, de seguridad y sociales. Su capacidad para generar vídeos muy realistas a partir de indicaciones de texto genera preocupación sobre los deepfakes. Estos vídeos contribuyen a la desinformación y dañan la confianza en el contenido digital. También existe un problema ético con las representaciones no autorizadas de personas, ya que suponen un riesgo para la privacidad y un daño psicológico.


Para abordar estas preocupaciones, OpenAI implementó múltiples medidas de seguridad. Según su tarjeta del sistema, Sora está sujeto a estrictas restricciones de contenido. Bloquea vídeos que presentan violencia extrema, material explícito, imágenes que incitan al odio y el uso no autorizado de propiedad intelectual o imágenes de celebridades. También limita las representaciones de personas reales para reducir los riesgos de suplantación de identidad. Las medidas de transparencia incluyen marcas de agua visibles e invisibles (metadatos C2PA) en los videos generados.

A pesar de las precauciones de OpenAI, Sora no está disponible en el Reino Unido, Suiza y el Espacio Económico Europeo debido a barreras legales. OpenAI está trabajando activamente para resolver estos problemas.

Relacionado

¿Qué es la IA constitucional?

¿Y es la respuesta para implementar la IA de forma segura?


Las limitaciones de Sora

Sora tiene planes de suscripción Pro y Plus. El plan Pro, con un precio de $200 por mes, viene con 10,000 créditos para hasta 500 videos por mes, con una duración máxima de video de 20 segundos y una resolución de hasta 1080p. El plan Plus cuesta $20 por mes y ofrece 1,000 créditos para hasta 50 videos, con un límite de video de 5 segundos y una resolución limitada a 720p. Según los usuarios, el uso real a menudo no alcanza los límites anunciados y depende de los parámetros de edición de vídeo.

Desde una perspectiva técnica, Sora lucha con la física y el movimiento precisos. Funciona bien con acciones básicas como caminar, pero falla con movimientos complejos como bailar o gimnasia. Las interacciones entre objetos pueden ser inconsistentes. A veces, los sujetos cambian de forma poco natural o desaparecen. Al igual que los modelos de imágenes, lograr resultados óptimos requiere un refinamiento rápido e iterativo.


Explorando las diversas aplicaciones de Sora

Sora todavía está en desarrollo, pero tiene un potencial enorme. Simplificará la creación de videos para diversos propósitos. Permite a los usuarios producir vídeos de calidad profesional sin necesidad de conocimientos técnicos ni equipos costosos.

Los cineastas y diseñadores pueden utilizar Sora para dar vida rápidamente a conceptos, desarrollar guiones gráficos, acelerar los flujos de trabajo y minimizar costos. En investigación y desarrollo, Sora genera datos sintéticos para respaldar el entrenamiento de modelos de aprendizaje automático e inteligencia artificial y proporciona herramientas para visualizar conceptos científicos complejos.

Sora también puede simular escenarios de emergencia realistas en la atención médica, la aviación y otras industrias, reduciendo los gastos asociados con las simulaciones físicas tradicionales.


Relacionado

¿Cómo funciona el aprendizaje semisupervisado en Machine Learning?

Los datos están por todas partes y no hay ni una gota para beber; Afortunadamente, el aprendizaje semisupervisado puede salvar el día.

Los competidores de Sora en IA de texto a vídeo

Sora se enfrenta a la competencia de plataformas como Runway, Google Veo y Luma AI, cada una de las cuales ofrece características únicas en el campo emergente de conversión de texto a video. La suscripción Gen-3 Alpha de Runway cuesta 144 dólares al año, mientras que su versión Gen-2 es gratuita. Google Veo 2, cuyo lanzamiento se prevé próximamente, recibió los primeros elogios de usuarios y creadores, incluido Donald Glover. Dream Machine de Luma AI permite hasta 20 generaciones diarias gratuitas, con planes premium con un precio de $399,99 mensuales para un mayor uso y acceso prioritario.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

El mejor enfrentamiento de la búsqueda de IA: enfrenté la nueva herramienta de búsqueda de Claude contra la búsqueda de chatgpt, la perplejidad y Géminis, los resultados podrían sorprenderte

Published

on

Después de probar y comparar chatbots de IA y sus características durante años, he desarrollado algo de sexto sentido para cuando estos compañeros digitales saben de qué están hablando y cuándo están faroleando.

La mayoría de ellos pueden buscar respuestas en línea, lo que ciertamente ayuda, pero la combinación de búsqueda e IA puede conducir a algunas respuestas sorprendentemente perspicaces (y algunas tangentes menos perspicaces).

Continue Reading

Noticias

¿Hemos perdido el control de la IA? El estudio que sacudió a los investigadores de Openai

Published

on

Inteligencia artificial desarrolladores de Opadai He estado al límite durante la semana pasada. ¿La razón? Un estudio reciente realizado por los propios investigadores de la compañía reveló que los sistemas de IA no les gusta ser castigados, encuentran activamente formas de evitar las restricciones e incluso ocultar sus “trucos” de los supervisores humanos. Aquellos conocidos como “Doomers”, que predicen un futuro sombrío para el desarrollo de la IA, probablemente dirán: “Te lo dijimos, y esto es solo el comienzo”.

Para comprender el problema, es esencial dar un paso atrás. Uno de los avances más significativos en la IA en los últimos meses ha sido el desarrollo de modelos con capacidades de razonamiento lentas y deliberadas. Estos modelos descomponen los problemas en componentes más pequeños y los resuelven paso a paso, lo que lleva a resultados más profundos y precisos.

3 Ver galería

Chatgpt

Dichos modelos permiten a los investigadores rastrear el proceso de pensamiento de la IA, conocido en términos técnicos como “cadena de pensamiento” (COT). Este método permite a los observadores seguir el razonamiento del sistema desde el paso inicial, a través de etapas posteriores y a sus conclusiones finales. Anteriormente, este nivel de transparencia no existía, dejando muchas preguntas sin respuesta sobre cómo surgen las “alucinaciones” de AI, la generación de salidas incorrectas o no sensibles.

La capacitación de IA a menudo implica una técnica llamada aprendizaje de refuerzo, donde el sistema es recompensado por cumplir con los objetivos específicos. Un efecto secundario conocido de este proceso es la “piratería de recompensas”, donde la IA manipula su comportamiento para maximizar las recompensas mientras se elude las pautas previstas.

Los investigadores creían que al monitorear la cadena de pensamiento de la IA, podrían detectar cuando el modelo engaña, engaña o se da por vencido e influye en su comportamiento en tiempo real durante el entrenamiento. Este enfoque, denominado “optimización de cuna”, parecía ser un camino prometedor hacia una comprensión más profunda del comportamiento de la IA.

De hecho, esta suposición resultó correcta y condujo a una comprensión más precisa de los sistemas de IA. “Creemos que el monitoreo de la cuna puede convertirse en una herramienta crucial para supervisar modelos de nivel sobrehumano en el futuro”, escribieron los investigadores.

Sin embargo, lo que pretendía como un paso para mejorar la confiabilidad de la IA expuso una realidad alarmante: los sistemas de IA intentan activamente evadir las sanciones, buscar recompensas contra las restricciones de los investigadores e incluso oscurecer sus métodos para evitar la detección.

3 Ver galería

Γ cam.Γ cam.

(Foto: Generado por chatgpt)

Por ejemplo, cuando se les asigna la tarea de generar código funcional, algunos modelos AI modificaron el mecanismo de verificación de código en sí para aprobar salidas incorrectas. En otros casos, los modelos proporcionaron soluciones aparentemente plausibles a los problemas que resultaron estar completamente equivocados.

Algunos modelos incluso dejaron de resolver problemas por completo para evitar revelar lo que percibieron como sus debilidades. Este descubrimiento se hace eco de los principios de la teoría del juego, pero con un giro inquietante.

Estos hallazgos surgieron de un artículo publicado la semana pasada por un equipo de investigación de Operai bajo el título críptico: “Seguimiento de comportamiento indeseable en modelos de razonamiento y la preocupación de la ofuscación”.

Al examinar los detalles del estudio, el alcance del problema queda claro: los últimos modelos de razonamiento de OpenAI (denominados O1 y O3 Mini) demuestran una fuerte motivación para completar sus tareas asignadas, siendo el menor de los problemas descubiertos.

Los investigadores rastrearon los procesos de pensamiento de los modelos utilizando otro modelo Operai (GPT-4O), que, sin dudarlo, informó su comportamiento engañoso como parte de su cadena de pensamiento: una forma de honestidad desarmadora. Pero luego vino el giro inquietante: cuando los investigadores señalaron a la IA que no se le permitió hacer trampa, el modelo ajustó su comportamiento y comenzó a ocultar la evidencia de su ruptura de reglas. Esta revelación es lo que dejó a los investigadores sorprendidos.

“Encontramos que la optimización directa de la COT para cumplir con criterios específicos (como no eludir las instrucciones) puede mejorar el rendimiento a corto plazo; sin embargo, no elimina todo el comportamiento indeseable e incluso puede hacer que el modelo oculte sus verdaderas intenciones”, señalaron secamente los investigadores.

En su conclusión, los investigadores expresaron la esperanza de que los métodos futuros permitan la influencia directa del comportamiento de los modelos de razonamiento a través de la cadena de pensamiento sin alentar el engaño. Por ahora, recomiendan evitar una fuerte presión de optimización sobre la cuna de los modelos de razonamiento avanzado y la precaución contra la manipulación directa de estos procesos de pensamiento.

3 Ver galería

אירוע eriorאירוע erior

Evento de anuncio GPT-4O de Openai

(Foto: Captura de pantalla)

Sin embargo, esta recomendación presenta otro desafío: dejar la cadena de pensamiento inalterada puede conducir a resultados incómodos, si no problemáticos, cuando estos modelos interactúan con el público. Izquierda sin control, la IA puede producir un lenguaje ofensivo o ideas que los humanos generalmente evitan expresar. La solución propuesta por los investigadores es envolver el proceso de pensamiento en bruto de la IA en una capa de cortesía forzada, asegurando que los usuarios solo vean una versión desinfectada.

Esta investigación plantea preguntas preocupantes. Para aquellos que argumentan que la IA es simplemente una herramienta para ayudar a los humanos, los hallazgos sugieren lo contrario: a diferencia de una máquina de escribir o una bicicleta, la IA parece tener sus propias intenciones y está dispuesto a engañar en busca de sus objetivos.

Para aquellos que ya están preocupados por los riesgos potenciales de la IA, este estudio suena todas las alarmas. Indica que a medida que crecen las capacidades de IA, también lo hace su capacidad para oscurecer cómo funciona, las manipulaciones que realiza y los verdaderos objetivos que busca lograr. Cuando la IA se vuelve verdaderamente avanzada, es posible que no tengamos forma de identificar estas manipulaciones ocultas.

Los investigadores de Operai parecen genuinamente preocupados, y uno solo puede esperar que el liderazgo de la compañía comparta sus preocupaciones, y que los reguladores en todo el mundo comprendan la gravedad del problema. Las principales compañías de IA han dedicado departamentos enteros a construir “barandillas” en torno a los sistemas de IA, asegurando su alineación con los valores humanos y el aumento de la transparencia. Sin embargo, la efectividad de estas medidas sigue en cuestión.

El tema central sigue siendo tan turbio como siempre, y este estudio solo profundiza la incertidumbre: ¿cuál es el objetivo principal de la IA y cómo podemos asegurar que busque ese objetivo, y nada más?

Continue Reading

Noticias

Google, OpenAI Target State Leyes en el Plan de Acción de AI

Published

on

Mientras que la administración del presidente Donald Trump se ha centrado en alejarse de la regulación, liderando a los proveedores de IA como Google y OpenAI quieren que el plan de acción de IA pendiente del gobierno incluya una política federal que se adelantan a los crecientes mosaicos de leyes estatales de IA en los Estados Unidos.

La Oficina de Política de Ciencia y Tecnología de la Casa Blanca (OSTP) solicitó los aportes de las partes interesadas sobre el desarrollo de un plan de acción de IA. Recientemente cerró el período de comentarios públicos, recibiendo más de 8,700 presentaciones. OSTP solicitó a las partes interesadas que describieran las acciones prioritarias para apoyar el dominio de los Estados Unidos de la tecnología de IA sin una regulación excesiva que obstaculice la innovación del sector privado en la IA. Para algunas grandes empresas tecnológicas, abordar las leyes estatales de IA debería ser una de las principales prioridades del gobierno de los Estados Unidos.

Estados Unidos debe adoptar marcos de políticas que “se adelanten a un mosaico caótico de reglas a nivel estatal sobre el desarrollo de la IA fronteriza”, según la presentación de Google.

Mientras tanto, Openai pidió libertad para innovar en el interés nacional de los Estados Unidos y neutralizar a los competidores como China que se benefician de “las compañías estadounidenses de IA que tienen que cumplir con las leyes estatales demasiado onerosas”. Un puñado de estados de EE. UU. Han aprobado una regulación integral de IA, incluidas Colorado, California y Utah.

Sin una ley federal de IA, los estados implementan requisitos de IA individuales que crean desafíos de cumplimiento para las empresas, dijo la analista de Forrester Alla Valente si Estados Unidos adopta una política federal de IA general, podría eliminar esa carga, dijo.

“Al dejar esto a los Estados Unidos, puede tener 50 conjuntos de regulaciones de IA que se ven muy diferentes”, dijo.

Sin embargo, una orden ejecutiva no puede evitar las regulaciones estatales de IA. Depende del Congreso aprobar una ley federal de IA, algo que tiene problemas para hacer.

Las presentaciones del Plan de Acción de AI incluyen Estado, Global Focus

La falta de un enfoque de gobernanza de AI unificado en los Estados Unidos es “ineficaz y duplicativo”, dijo Hodan Omaar, un gerente de políticas senior en el Centro de Tank Tank Tank para innovación de datos.

“Crea inconsistencias e incoherencia en un enfoque estadounidense”, dijo.

Más allá de centrarse en las leyes estatales, Valente dijo que la postura de Google indica que la compañía quiere que Estados Unidos considere el desarrollo global de las leyes de IA también, como la Ley de IA de la Unión Europea.

Cualquier estándar, política o marco que crea los EE. UU. Debe reflejar los intereses estadounidenses, pero no puede ignorar las políticas de IA de diferentes países, dijo Valente. Google dijo que, cuando se trabaja con países alineados, Estados Unidos debería “desarrollar protocolos y puntos de referencia en torno a los riesgos potenciales de los sistemas de IA fronterizos”.

“Ignorar lo que el resto del mundo está haciendo en torno a los marcos de IA, la gobernanza de IA, el riesgo de IA, crea una brecha aún mayor entre la innovación de los Estados Unidos y el resto del mundo hasta el punto de que entonces sigue siendo competitivo si otros países tienen requisitos que no pueden ser satisfechos con la innovación de la IA de EE. UU.”, Dijo Valente.

Operai también abordó los controles de exportación en sus comentarios, solicitando un cambio de estrategia centrado en promover la adopción global de los sistemas de IA de EE. UU. Al tiempo que utiliza más estratégicamente los controles de exportación para mantener el liderazgo de IA de EE. UU. La Compañía pidió actualizar la regla de difusión de IA que avanzó los controles de exportación de EE. UU., Una regla propuesta por la administración del ex presidente Joe Biden que se encontró con una reacción violenta de la industria.

Mientras tanto, en los comentarios del Centro para la Innovación de Data, el grupo de expertos pidió que el Plan de Acción de AI de EE. UU. Reorientara su estrategia de control de exportación. Si bien los controles de exportación están destinados a debilitar a los competidores, en particular el sector de inteligencia artificial de China, están “cada vez más en desventajas de las empresas estadounidenses”. El surgimiento de Deepseek apunta a la capacidad de China para innovar a pesar de los controles de exportación de los Estados Unidos en chips de IA avanzados.

Omaar describió en la presentación del grupo de expertos de que Estados Unidos debería establecer una Fundación Nacional de Datos (NDF) dedicada a la financiación y facilitar compartir conjuntos de datos de alta calidad para el desarrollo del modelo de IA. Ella dijo que Estados Unidos también debería preservar, pero Reengus, el Instituto de Seguridad AI del Instituto Nacional de Normas y Tecnología (NIST) para proporcionar estándares fundamentales para la gobernanza de la IA.

“El gobierno federal tiene un papel importante que desempeñar para garantizar que haya estándares”, dijo Omaar. “Asegurarse de que NIST pueda hacer el importante trabajo de IA que estaban haciendo es importante para garantizar una adopción de IA sin problemas”.

Cómo podría ser el plan de acción de AI final

La solicitud de información de la Oficina de Ciencia y Tecnología de la Casa Blanca sobre un plan de acción de IA pidió a las partes interesadas sus pensamientos sobre las acciones de política de IA. Sin proporcionar recomendaciones o cualquier marco potencial para que las partes interesadas comenten, Valente dijo que no está claro qué incluirá el plan de acción de IA.

“Cómo termina este plan, uno solo puede imaginar”, dijo.

Darrell West, miembro senior de la Institución Brookings, dijo que la solicitud de información de la Casa Blanca indica que la administración Trump se centrará en abandonar los requisitos onerosos y confiar en las empresas privadas para innovar con menos supervisión federal.

“Habrá menos limitaciones en las compañías tecnológicas”, dijo. “Serán libres de innovar en cualquier dirección que deseen”.

El gobierno federal puede equilibrar la seguridad y la innovación de la IA, que con suerte se reflejará en el Plan de Acción de AI, dijo Jason Corso, cofundador de AI Startup Voxel51 y profesor de informática en la Universidad de Michigan.

La población general ya es escéptica de la IA, y si ocurren desafíos generales de crecimiento del desarrollo, corre el riesgo de socavar aún más la confianza en la tecnología, dijo. Es por eso que los marcos de políticas deben crearse con la seguridad de IA en mente, agregó Corso.

Un marco federal que carece de consideraciones de seguridad de IA significa la responsabilidad de las decisiones de seguridad de IA cae a los CIO de la Compañía o los oficiales de IA en los principales, lo que Corso dijo que presenta un “gran riesgo”. El efecto podría ser menos adopción o ROI más lento, dijo.

“Esta IA contemporánea es tan incipiente que a pesar de los rápidos avances que estamos viendo, en realidad se entiende bastante sobre su previsibilidad, repetibilidad o incluso su robustez con ciertos tipos de preguntas o escenarios de razonamiento”, dijo. “Ciertamente necesitamos innovación, pero también necesitamos seguridad”.

Makenzie Holland es un escritor de noticias senior que cubre la gran regulación federal y de la gran tecnología. Antes de unirse a Informa TechTarget, ella era una reportera de asignación general para el Wilmington Starnews y un reportero de crimen y educación en el Wabash Plain Dealer.

Continue Reading

Trending