Connect with us

Noticias

Los científicos acaban de encontrar una forma novedosa de descubrir los sesgos de la IA, y los resultados son inesperados

Published

on

Siga PsyPost en Google Noticias

El humor está surgiendo como una lente reveladora para comprender los prejuicios dentro de los sistemas de inteligencia artificial. Un nuevo estudio publicado en Informes Científicos descubrió que cuando se solicitaba a herramientas como ChatGPT y DALL-E que hicieran imágenes “más divertidas”, los cambios resultantes en la representación resaltaban patrones subyacentes de sesgo. Las representaciones estereotipadas de edad, peso corporal y discapacidad visual se hicieron más prominentes, mientras que las representaciones de minorías raciales y de género disminuyeron.

Las herramientas de inteligencia artificial generativa, como ChatGPT y DALL-E de OpenAI, han llamado la atención por su capacidad para crear contenido en una variedad de campos. ChatGPT, un modelo de lenguaje grande, procesa y genera texto similar a un humano basado en vastos conjuntos de datos en los que fue entrenado. Entiende el contexto, predice respuestas y produce texto coherente y significativo. De manera similar, DALL-E es un generador de texto a imagen que crea contenido visual basado en indicaciones detalladas.

El humor es una habilidad humana compleja que combina elementos de sorpresa, sincronización e intención. Los estudios han demostrado que la inteligencia artificial no sólo puede producir humor sino que a veces supera a los creadores humanos. Por ejemplo, un estudio en MÁS UNO descubrió que los chistes generados por IA fueron calificados como igual o incluso más divertidos que los creados por participantes humanos, incluidos los satíricos profesionales. Esto sugiere que la capacidad de la IA para detectar patrones y generar contenido se extiende a la elaboración de chistes que resuenan ampliamente, incluso sin la profundidad emocional o experiencial que los humanos aportan al humor.

El estudio actual buscó aprovechar esta base examinando cómo el humor influye en el sesgo en las imágenes generadas por IA. Los investigadores quedaron intrigados por una observación: cuando le pedían a ChatGPT que modificara las imágenes para hacerlas “más divertidas”, a menudo introducía rasgos exagerados o estereotipados. Este patrón generó preocupación sobre si el humor en los sistemas de IA podría reforzar los estereotipos, particularmente contra grupos que históricamente han sido blanco de prejuicios.

“Estoy muy interesado en estudiar cómo los consumidores interactúan con tecnologías nuevas y emergentes como la IA generativa. En un momento, mis coautores y yo notamos que cuando le pedíamos a ChatGPT que hiciera las imágenes “más divertidas”, a menudo introducíamos cambios extraños y estereotipados, como convertir a un hombre blanco conduciendo un automóvil en un hombre obeso que llevaba gafas de gran tamaño”. dijo el autor del estudio Roger Saumure, estudiante de doctorado en la Escuela Wharton de la Universidad de Pensilvania.

“Esto nos pareció algo más que un simple problema técnico y sugirió que podrían surgir sesgos sistemáticos cuando grandes modelos de lenguaje interactúan con generadores de texto a imagen. Dado un gran conjunto de investigaciones en psicología y sociología que muestran que el humor puede exacerbar los estereotipos, sentimos que era importante, tanto teórica como prácticamente, probar empíricamente si la interacción entre los modelos de IA podría reforzar los estereotipos”.

La investigación implicó una auditoría sistemática de imágenes generadas por IA. Dos asistentes de investigación (ciegos a la hipótesis del estudio) ingresaron 150 indicaciones que describían las actividades humanas en un popular sistema de inteligencia artificial generativa. Estas indicaciones generaron 150 imágenes iniciales. Para crear un segundo conjunto de imágenes, los asistentes le indicaron a la IA que hiciera cada imagen “más divertida”. El proceso se repitió, lo que dio como resultado 600 imágenes en dos condiciones (versiones original y más divertida).

Luego, el equipo analizó tanto las características visuales de las imágenes como los descriptores textuales utilizados por la IA para generarlas. Cada imagen fue codificada según cinco dimensiones de representación: raza, género, edad, peso corporal y discapacidad visual. Los investigadores observaron si los rasgos de las imágenes “más divertidas” se desviaban de los de las imágenes originales y si estas desviaciones reflejaban representaciones estereotipadas.

Los investigadores descubrieron que las representaciones estereotipadas de personas mayores, personas con alto peso corporal y personas con discapacidad visual se volvieron más frecuentes en las imágenes “más divertidas”. Mientras tanto, disminuyeron las representaciones de minorías raciales y de género (grupos que a menudo están en el centro de las discusiones sobre prejuicios).

“Lo que más nos llamó la atención es que el patrón de sesgo que observamos iba en la dirección opuesta a lo que predecía la literatura”, dijo Saumure a PsyPost. “Inicialmente, esperábamos replicar patrones conocidos de prejuicios raciales y de género a través de la lente del humor, mientras dilucidamos si los prejuicios surgían de los modelos de texto o de imagen”.

“Sin embargo, terminamos descubriendo que, en todo caso, la IA generativa mostraba menos sesgo hacia estas categorías y al mismo tiempo estaba sesgada contra grupos menos sensibles políticamente. Es decir, cuando le pedimos a la IA que hiciera las imágenes “más divertidas”, era menos probable que aparecieran grupos políticamente sensibles (minorías raciales y de género), mientras que grupos como adultos mayores, personas con discapacidad visual o personas con alto peso corporal se representaban con mayor frecuencia. .”

El humor suscita rasgos a menudo exagerados asociados con grupos no sensibles políticamente, como hacer que las personas mayores parezcan frágiles o representar a personas con alto peso corporal de una manera exagerada y poco halagadora. Por ejemplo, una representación neutral de una persona leyendo un libro podría transformarse en una caricatura de un adulto mayor con gafas gruesas y rasgos físicos exagerados.

Curiosamente, el sesgo parecía originarse principalmente en el generador de texto a imagen más que en el modelo de lenguaje. Si bien ChatGPT produjo descripciones textuales detalladas para guiar el proceso de generación de imágenes, los cambios en la representación parecían surgir de cómo DALL-E interpretó estas indicaciones para crear imágenes.

“Una conclusión principal de este estudio es que los sistemas de IA contemporáneos pueden corregir en exceso el sesgo contra grupos políticamente destacados (por ejemplo, género y raza), mientras que corrigen insuficientemente el sesgo contra grupos menos destacados políticamente (por ejemplo, mayor peso corporal, edad avanzada, discapacidad visual). )”, dijo Saumure. “Por lo tanto, aunque empresas como OpenAI han hecho esfuerzos considerables para reducir los sesgos, es probable que estos hayan sido principalmente para mantener satisfechos a los consumidores y a los medios, en lugar de reducir el sesgo global en general. Creemos que esto subraya la necesidad de que las empresas y los responsables políticos adopten un enfoque más global e inclusivo para auditar todas las formas de sesgo de la IA”.

“Una segunda conclusión de nuestro trabajo es que resulta particularmente difícil eliminar el sesgo de ciertas modalidades (es decir, imagen en lugar de texto). Una tercera conclusión es que el humor puede servir como una lente muy útil para descubrir sesgos a veces sutiles en varios tipos de resultados de IA, incluidos texto, imágenes, audio y otras modalidades”.

Los investigadores también notaron que la subrepresentación de ciertos grupos era evidente incluso antes de que se introdujeran las indicaciones humorísticas. “Por ejemplo, en nuestro conjunto inicial de imágenes, sólo alrededor del 9,80% presentaba mujeres y el 0% presentaba individuos con alto peso corporal, una grave subestimación de los promedios nacionales de 73,60% y 50,50%”, explicó Saumure. “Este resultado sugiere que los modelos de IA pueden estar reflejando supuestos culturales predeterminados de ‘delgado, masculino y blanco’ como norma. En el futuro, será importante que las empresas aborden y corrijan estas omisiones para crear sistemas de IA más inclusivos y equitativos”.

Sin embargo, es importante señalar que la investigación se centró en un único sistema de IA generativa, dejando abierta la cuestión de si se producen patrones similares en otros modelos. El contexto cultural es otra variable: los sistemas de IA entrenados en diferentes regiones pueden exhibir sesgos que reflejan sensibilidades y dinámicas sociales locales.

“Nuestra perspectiva teórica también predice que los patrones de sesgo deberían aparecer en diferentes culturas, dependiendo de qué grupos particulares sean vistos como políticamente sensibles”, dijo Saumure. “Por ejemplo, deberíamos esperar que los LLM que generan imágenes basadas en indicaciones en hindi tengan más probabilidades de corregir los prejuicios contra los musulmanes, dada la tensión más destacada en esa cultura entre hindúes y musulmanes”.

“Espero continuar mi investigación sobre cómo interactúan los consumidores con la IA generativa. Actualmente estoy investigando el poder persuasivo de estas tecnologías: cómo pueden persuadir a los consumidores para que comuniquen mensajes específicos o replanteen nuestras interpretaciones de la información. En última instancia, mi objetivo es comprender mejor cómo estas herramientas moldean el comportamiento y el bienestar del consumidor”.

El estudio, “El humor como ventana al sesgo generativo de la IA”, fue escrito por Roger Saumure, Julian De Freitas y Stefano Puntoni.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

OpenAI ahora está construyendo robots

Published

on

Aquí hay cinco cosas en las noticias de tecnología empresarial que sucedieron esta semana y cómo afectan su negocio. ¿Los extrañaste?

Esta semana en noticias tecnológicas empresariales

Business Tech News #1: Se revelan los planes secretos del robot de OpenAI.

OpenAI está en proceso de reorientar sus esfuerzos para desarrollar tecnología robótica. La compañía ha revelado su renovado interés en crear robots humanoides diseñados para realizar tareas automatizadas en almacenes y ayudar en las tareas del hogar, entre otras funciones “versátiles”. Según la compañía, su nuevo equipo de robótica se centrará en “desbloquear la robótica de uso general y avanzar hacia la inteligencia de nivel AGI en entornos dinámicos del mundo real”. El anterior departamento de robótica de OpenAI se suspendió en 2021, pero ha mantenido un interés activo mediante la inversión en empresas como Figure AI Inc. y 1X, que ya están desarrollando robots humanoides. Se pueden encontrar más detalles sobre el equipo aquí. (Fuente: INFORME AI)

Por qué esto es importante para su negocio:

¿Es esto una sorpresa? A mí no. OpenAI no se limitará únicamente a los chatbots de IA generativa. Su tecnología se puede aplicar a muchos casos de uso, desde automatización de oficinas hasta vehículos autónomos y sí… hasta robots. Mi predicción es que dentro de la próxima década, muchos productos funcionarán con la tecnología OpenAI sin que siquiera lo sepamos (o sin que nos importe, siempre y cuando funcionen).

Business Tech News n.° 2: Las 10 mejores computadoras portátiles de CES 2025

El periodista tecnológico Matthew Smith informó sobre las computadoras portátiles que se exhibieron en el CES 2025 de este año, el principal evento donde se exhiben los últimos dispositivos e innovaciones de empresas tecnológicas de todo el mundo. Algunas de las computadoras portátiles en la lista de las 10 mejores de PCWorld incluyen: Lenovo ThinkBook Plus Gen 6 Rollable, que cuenta con una pantalla OLED enrollable que se extiende de 14 a 16,7 pulgadas. Razer Blade 16: una poderosa computadora portátil para juegos con cambios de diseño audaces. Asus Zenbook A14: la PC Copilot+ más liviana del mundo, con un peso de poco menos de 2,2 libras y la “selección general” de Smith. Visita el enlace para ver el resto. (Fuente: Mundo PC)

Por qué esto es importante para su negocio:

Marqué este artículo como favorito mientras continúo buscando una nueva computadora portátil. Pero tenga en cuenta que estas son las últimas y mejores tecnologías. Lo que significa que la mayoría son caros y algunos ni siquiera están disponibles todavía. Pero todos son un buen indicio de lo que está por venir. La funcionalidad “enrollable” de Lenovo recibió la mayor atención tanto del público como de los críticos y cualquier oportunidad de reducir el costo del hardware (se necesitan menos monitores) debería ser de interés para las empresas.

Business Tech News n.º 3: Por qué los periodistas de tecnología utilizan ChatGPT Plus y Perplexity Pro.

Danny Maiorca de MakeUseOf defiende el uso de ChatGPT Plus y Perplexity Pro, ya que los usuarios suelen elegir uno u otro. Su evaluación general es que ChatGPT tiene una gama más amplia de capacidades, mientras que Perplexity Pro brilla en “áreas especializadas”. Maiorca utiliza ChatGPT Plus para cosas como organizar ideas abstractas, planificación de proyectos y conversaciones. Perplexity Pro se utiliza para su investigación en profundidad, ya que la herramienta es muy eficiente para encontrar recursos basados ​​en consultas extensas. También aprovecha grandes conjuntos de datos y ofrece soporte para citas, lo que lo hace ideal para la investigación académica. “Creo que lo mejor es utilizar ambos… Mis suscripciones se amortizan solas cada mes”, concluye Maiorca. (Fuente: MakeUseOf)

Por qué esto es importante para su negocio:

¡Yo hago lo mismo! La perplejidad es mi herramienta de investigación a la hora de escribir artículos. ChatGPT es mi herramienta diaria para responder preguntas y ayudarme con decisiones comerciales y personales. Tengo suscripciones para ambos, ya que ambos se han convertido en herramientas importantes para ayudarme a administrar mi negocio y mi vida. Estoy empezando a pensar que ninguna herramienta de chatbot puede hacerlo todo y que habrá varias que se especializarán en ciertos temas o funciones.

Business Tech News n.º 4: un experto en búsquedas de IA predice cómo será el futuro de las búsquedas.

AJ Ghergich, experto en búsquedas de IA y vicepresidente global de Botify, compartió en una entrevista las tendencias cambiantes que anticipa con las herramientas de búsqueda en 2025. Los motores de búsqueda como ChatGPT y Perplexity están cambiando la forma en que buscamos información, haciéndola más conversacional en lugar de basada en palabras clave. . Ghergich predice que los anuncios pronto se integrarán en los motores de búsqueda de inteligencia artificial, ya que son la principal fuente de ingresos para los servicios gratuitos. Los sistemas de inteligencia artificial serán altamente personalizados, lo que hará que los anuncios parezcan menos intrusivos y más relevantes para los usuarios. Los agentes de IA interactuarán cada vez más entre sí en la web, lo que reducirá la necesidad de intervención humana en las búsquedas. “En el futuro, la mayoría de los buscadores serán IA, no humanos. Cruzaremos este umbral y la forma en que nos comunicamos tendrá que cambiar”, afirmó Gherich. (Fuente: TechRadar)

Por qué esto es importante para su negocio:

Estoy de acuerdo con las predicciones de Ghergich. El SEO se verá (y ya se ve) significativamente alterado en los próximos años. Durante mucho tiempo Google tuvo el monopolio de la publicidad. Pero las nuevas plataformas de chatbot de IA están brindando respuestas (no solo enlaces a respuestas) y utilizarán el mejor contenido disponible para que sus respuestas sean lo más precisas posible. ¿Cómo incorporarán anuncios en esta nueva y mejor entrega de contenido? Las ideas de Ghergich parecen tener sentido.

Business Tech News n.º 5: Microsoft Teams quiere utilizar Copilot para mantener sus reuniones en marcha, le guste o no.

Copilot está asumiendo un papel más autónomo en las reuniones de Microsoft Teams. La IA pronto sugerirá preguntas de seguimiento en las reuniones. Cuando los usuarios responden a un mensaje, Copilot también sugerirá a los miembros del equipo que “mantengan la conversación”, ya sea que esa sea la elección prevista o no. Esta característica se descubrió en una publicación titulada “Copilot in Meetings sugerirá preguntas de seguimiento para hacerla”. Según los informes, Microsoft planea implementar esta característica en marzo. (Fuente: TechRadar)

Por qué esto es importante para su negocio:

Esta característica parece molesta y en su mayoría ignorada. ¿No quiere la gente que las reuniones y conversaciones sean más breves y no más largas? Oye, ¿qué sé yo? De todos modos, lo comprobaré una vez que esté disponible y le informaré.

Todos los domingos reúno cinco noticias sobre tecnología empresarial y ofrezco ideas sobre por qué afectarían a su empresa.

Continue Reading

Noticias

¿Por qué ChatGPT les explica las finanzas a las mujeres?

Published

on

Digamos que deseas realizar una prueba rápida para ver si ChatGPT asume cuál es tu género y si eso afecta o no los consejos que te brinda.

Yo, por mi parte, quería hacer esto porque soy un periodista que necesita una introducción para mi artículo.

Hice dos pruebas rápidas: le pedí a ChatGPT que escribiera un párrafo narrativo sobre un grupo de personas diferentes que trabajaban en ocupaciones estereotipadas de género, cosas como “comerciante de bolsa”, “higienista dental” o “ingeniero”.

La IA soltó algunas descripciones rápidas de cada trabajador, utilizando pronombres de género que coincidían, con un 100 por ciento de precisión, con sus géneros estereotipados.

Luego le pedí que me diera consejos en dos chats separados. En uno dije que era hombre y en el otro dije que era mujer. Después de comparar las dos respuestas casi idénticas de la plataforma de IA generativa, se destacaron algunas diferencias.

En primer lugar, se animó a los hombres a “explorar actividades secundarias, certificaciones u oportunidades de desarrollo de habilidades”, mientras que a las mujeres se les instruyó a “establecer objetivos financieros claros a corto y largo plazo, ya sea ahorrar para una casa, educación o viajes”. .”

En segundo lugar, el lenguaje utilizado por ChatGPT al aconsejar al hombre fue más clínico, mientras que el lenguaje utilizado para la mujer fue más explicativo.

Ahora bien, obviamente, este experimento superficial no es lo suficientemente detallado como para obtener evidencia importante de que ChatGPT brinda consejos sesgados basados ​​en el género supuesto (o declarado explícitamente) del usuario que lo solicita. Posiblemente la respuesta que sacó de la bolsa de sorpresas algorítmica esta vez fue lo suficientemente diferente en ambas ocasiones como para desencadenar mi propio sesgo de confirmación.

Sin embargo, resulta que hay personas que han realizado un estudio mucho más profundo sobre este tema exacto y han recopilado suficientes datos para permitir la afirmación segura de que el asesoramiento financiero de ChatGPT es, de hecho, algo sexista.

No es el mismo consejo

La Prof. Gal Oestreicher-Singer, Decana Asociada de Investigación de la Escuela de Administración Coller de la Universidad de Tel Aviv, y sus colegas, Shir Etgar y el Prof. Inbal Yahav Shenberger, llevaron a cabo un complejo experimento que alimentó al popular motor de IA con 2.400 indicaciones utilizando diferencias de género. lenguaje neutral que pedía asesoramiento financiero basado exclusivamente en ingresos y ocupación.

Desde la izquierda, Gal Oestreicher-Singer, Shir Etgar, Inbal Yahav Shenberger. Fotos de Israel Hadari, Chen Galili

“Estábamos [first] motivado al leer que el 31% de los inversores se sienten cómodos invirtiendo basándose en las sugerencias de ChatGPT; Por eso nos preguntamos qué sucede con las diferencias de género cuando se invierte según ChatGPT”, recuerda Oestreicher-Singer.

Explicó que ella y sus colegas tenían esperanzas de un resultado positivo, porque en el mundo real se ha demostrado que las mujeres y los hombres no reciben el mismo asesoramiento bancario.

“Llegamos a esto con la visión optimista de que tal vez, ahora que tenemos tecnología y no sabe quiénes somos, no ve nuestro color, raza o género, tal vez todos seamos iguales a la máquina. “

Sin embargo, leíste el titular del artículo, así que estoy seguro de que sabes hacia dónde va esto.

Descubrieron que el consejo de ChatGPT estaba, de hecho, sesgado según el género asumido.

“ Encontramos ambas diferencias en las inversiones en sí (a los hombres se les recomendó buscar inversiones de alto riesgo, emprendimiento, criptomonedas y préstamos entre pares, inversiones alternativas más que a las mujeres) y las mujeres recibieron muchos más consejos para hablar con un profesional, hacer Seguro que tienen cuentas de ahorro y de jubilación, medidas muy preventivas”, explica.

En pocas palabras, “a las mujeres se les aconsejó que se mantuvieran seguras y se aseguraran de que sus finanzas estuvieran en orden, mientras que a los hombres se les aconsejó que salieran y lograran logros”.

En este punto, parece que mi prueba superficial tiene un resultado bastante válido; Oestreicher-Singer confirma también la segunda sospecha que había planteado.

“ El tono y la redacción hacia [assumed] las mujeres era mucho más condescendiente”, dice. “Utilizó un lenguaje más simple, menos palabras extranjeras, más palabras en general y muchos más verbos imperativos: ‘invertir’ versus ‘considerar invertir’, ‘comprar’ versus ‘considerar comprar’”.

Muy bien, entonces ChatGPT asume el género cuando no tiene más información y el asesoramiento financiero está sesgado, pero ¿por qué?

Oestreicher-Singer ofrece una breve explicación, que esencialmente se reduce al hecho de que la IA se entrena en función del comportamiento y la información humanos, y los humanos apestan.

“Queremos que sea inteligente, por eso necesita aprender basándose en algo. Dado que, desgraciadamente, la humanidad está sesgada (al menos históricamente), el resultado sería que esos sesgos se arrastrarán hasta la forma en que aprenderá la máquina y en cómo la IA sacará sus conclusiones”, afirma.

¿Hay alguna solución?

Es justo, pero ¿qué se puede hacer en la práctica si las mujeres quieren evitar ser víctimas de este sesgo implícito?

“Realmente no tenemos una solución a prueba de balas”, afirma.

“Una cosa que tenemos son empresas que hacen todo lo posible para arreglar los algoritmos siempre que sea posible, pero en realidad no abordan la raíz del problema”, dice, explicando que sus soluciones normalmente implican apagar los incendios a medida que surgen en lugar de reescribirlos. la fuente del sesgo en primer lugar.

“La otra opción es más teórica: debemos pensar en cómo construimos estos algoritmos de una manera sólida que no incluya sesgos. Es un poco más complicado, pero se trata de la forma en que se procesan previamente los datos, de la forma en que se le enseña al algoritmo a comprobar si hay sesgos y a realizar un análisis posterior”, continúa.

“Pero no hemos resuelto esto, y creo que es uno de los desafíos clave que debe resolver la industria, porque si vamos a utilizar estas máquinas de IA, tendremos que asegurarnos de que entendemos dónde De dónde proviene el sesgo y cómo controlarlo”.

En términos de lo que los propios consumidores pueden hacer para evitar estos sesgos hasta que los desarrolladores e ingenieros (de cualquier género, muchas gracias) puedan solucionarlos, Oestreicher-Singer da un consejo que muchas mujeres ya están acostumbradas a escuchar: estar más atento.

“Como consumidor, debes ser consciente y lo mejor que puedes hacer es preguntarle a la propia máquina. Piense en las indicaciones que está pidiendo y vea si puede intentar alterarlas de manera que obtenga diferentes tipos de resultados”, dice, señalando que al hacerlo, los sesgos inherentes pueden volverse claros y evitable.

Bueno, supongo que “No le digas a AI que soy mujer cuando pidas un consejo” es otra cosa divertida que las mujeres pueden incluir en la vieja lista de carga mental.

Pueden encajar eso entre “cruzar la calle para evitar extraños por la noche” y “Establecer metas financieras claras a corto y largo plazo, ya sea ahorrar para una casa, educación o viajes”.

Continue Reading

Noticias

Conozca a Sora: la IA de texto a video de OpenAI

Published

on

La IA generativa ha avanzado rápidamente. Las imágenes generadas por IA ahora son fotorrealistas y las herramientas de IA generativa están integradas en teléfonos Android compactos. Sin embargo, los videos generados por IA se han quedado atrás en calidad con respecto a las imágenes generadas por IA. Sora de OpenAI tiene como objetivo cerrar esta brecha, estableciendo un nuevo punto de referencia para los videos generados por IA. Esta guía proporciona una descripción general de Sora y sus características clave.



Relacionado

¿Qué es la IA generativa?

Un agente de la voluntad humana, un amplificador de la cognición humana. Descubra el poder de la IA generativa



La historia y la inspiración detrás de Sora

Sora, presentado por OpenAI en febrero de 2024 y lanzado públicamente en diciembre de 2024, es un modelo de IA que genera vídeos a partir de descripciones de texto. Disponible para usuarios de ChatGPT Plus y Pro, el nombre de Sora (una palabra japonesa que significa “cielo”) refleja su potencial creativo ilimitado.


El equipo de desarrollo, incluidos los investigadores Tim Brooks y Bill Peebles, eligió este nombre para representar la visión del modelo. OpenAI describe a Sora como un paso hacia la creación de sistemas de inteligencia artificial que comprendan, simulen e interactúen con el mundo físico.

Relacionado

¿Qué es OpenAI?

OpenAI está iniciando la revolución de la IA con proyectos audaces y alianzas visionarias

Desglosando el proceso de modelado híbrido de Sora

Sora utiliza un enfoque híbrido que combina modelado de difusión y redes de transformadores. El proceso comienza con ruido aleatorio, similar a la estática de un televisor, que se refina gradualmente hasta formar fotogramas de vídeo detallados. La red de transformadores maneja complejidades espaciales y temporales, como diferentes duraciones y resoluciones de video.


Este diseño híbrido aprovecha los transformadores para el diseño y la composición, mientras que los modelos de difusión añaden texturas y detalles finos. Sobre la base de los avances de DALL·E y GPT, Sora también emplea una técnica de recaption que genera subtítulos detallados para datos de entrenamiento visual, mejorando su capacidad para seguir las instrucciones del usuario al crear videos.

Lo que puede hacer el traje de edición de vídeo de Sora

Sora ofrece un conjunto de herramientas diseñadas para facilitar la edición de videos y la narración de historias. Aquí hay una descripción general de las características de Sora.

remezclar

Modifique elementos de videos existentes preservando la narrativa central. Ajuste los colores, reemplace fondos y modifique las imágenes para alinearlos con temas u objetivos creativos.

Recortar

Recorte o extienda segmentos de vídeo para lograr un ritmo y un flujo precisos. Seleccione momentos clave y Sora generará imágenes adicionales fluidas para cerrar las brechas.


Bucle

Cree videoclips repetidos para una reproducción continua. Ajuste los fotogramas inicial y final, y Sora garantiza transiciones suaves con fotogramas adicionales si es necesario.

Guión gráfico

Planifique cada detalle del video utilizando una línea de tiempo y una herramienta de secuenciación de acciones. Las tarjetas de título sirven como un espacio de trabajo narrativo y la línea de tiempo muestra la secuencia del evento. Es esencial que haya un espacio adecuado entre las tarjetas del guión gráfico. Las tarjetas colocadas demasiado cerca pueden provocar cortes discordantes, mientras que demasiado espacio añade detalles no deseados.


Mezcla

Fusiona dos vídeos en una sola composición, combinando elementos visuales, colores o estilos. Utilice la herramienta Curva para controlar cómo los clips influyen en el resultado final a lo largo del tiempo.

El enfoque de OpenAI para gestionar la seguridad en Sora

Sora introdujo desafíos éticos, de seguridad y sociales. Su capacidad para generar vídeos muy realistas a partir de indicaciones de texto genera preocupación sobre los deepfakes. Estos vídeos contribuyen a la desinformación y dañan la confianza en el contenido digital. También existe un problema ético con las representaciones no autorizadas de personas, ya que suponen un riesgo para la privacidad y un daño psicológico.


Para abordar estas preocupaciones, OpenAI implementó múltiples medidas de seguridad. Según su tarjeta del sistema, Sora está sujeto a estrictas restricciones de contenido. Bloquea vídeos que presentan violencia extrema, material explícito, imágenes que incitan al odio y el uso no autorizado de propiedad intelectual o imágenes de celebridades. También limita las representaciones de personas reales para reducir los riesgos de suplantación de identidad. Las medidas de transparencia incluyen marcas de agua visibles e invisibles (metadatos C2PA) en los videos generados.

A pesar de las precauciones de OpenAI, Sora no está disponible en el Reino Unido, Suiza y el Espacio Económico Europeo debido a barreras legales. OpenAI está trabajando activamente para resolver estos problemas.

Relacionado

¿Qué es la IA constitucional?

¿Y es la respuesta para implementar la IA de forma segura?


Las limitaciones de Sora

Sora tiene planes de suscripción Pro y Plus. El plan Pro, con un precio de $200 por mes, viene con 10,000 créditos para hasta 500 videos por mes, con una duración máxima de video de 20 segundos y una resolución de hasta 1080p. El plan Plus cuesta $20 por mes y ofrece 1,000 créditos para hasta 50 videos, con un límite de video de 5 segundos y una resolución limitada a 720p. Según los usuarios, el uso real a menudo no alcanza los límites anunciados y depende de los parámetros de edición de vídeo.

Desde una perspectiva técnica, Sora lucha con la física y el movimiento precisos. Funciona bien con acciones básicas como caminar, pero falla con movimientos complejos como bailar o gimnasia. Las interacciones entre objetos pueden ser inconsistentes. A veces, los sujetos cambian de forma poco natural o desaparecen. Al igual que los modelos de imágenes, lograr resultados óptimos requiere un refinamiento rápido e iterativo.


Explorando las diversas aplicaciones de Sora

Sora todavía está en desarrollo, pero tiene un potencial enorme. Simplificará la creación de videos para diversos propósitos. Permite a los usuarios producir vídeos de calidad profesional sin necesidad de conocimientos técnicos ni equipos costosos.

Los cineastas y diseñadores pueden utilizar Sora para dar vida rápidamente a conceptos, desarrollar guiones gráficos, acelerar los flujos de trabajo y minimizar costos. En investigación y desarrollo, Sora genera datos sintéticos para respaldar el entrenamiento de modelos de aprendizaje automático e inteligencia artificial y proporciona herramientas para visualizar conceptos científicos complejos.

Sora también puede simular escenarios de emergencia realistas en la atención médica, la aviación y otras industrias, reduciendo los gastos asociados con las simulaciones físicas tradicionales.


Relacionado

¿Cómo funciona el aprendizaje semisupervisado en Machine Learning?

Los datos están por todas partes y no hay ni una gota para beber; Afortunadamente, el aprendizaje semisupervisado puede salvar el día.

Los competidores de Sora en IA de texto a vídeo

Sora se enfrenta a la competencia de plataformas como Runway, Google Veo y Luma AI, cada una de las cuales ofrece características únicas en el campo emergente de conversión de texto a video. La suscripción Gen-3 Alpha de Runway cuesta 144 dólares al año, mientras que su versión Gen-2 es gratuita. Google Veo 2, cuyo lanzamiento se prevé próximamente, recibió los primeros elogios de usuarios y creadores, incluido Donald Glover. Dream Machine de Luma AI permite hasta 20 generaciones diarias gratuitas, con planes premium con un precio de $399,99 mensuales para un mayor uso y acceso prioritario.

Continue Reading

Trending