Noticias
Sora de OpenAI está aquí. Todavía hay tiempo para prepararse para la amenaza que representan estas tecnologías
Sam Gregory es director ejecutivo de la organización mundial de derechos humanos WITNESS.
A principios de este año, OpenAI anunció Sora, “un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto”. Esta semana, el producto se lanzó oficialmente. Los usuarios que pagan pueden generar videos con una resolución de 1080p, de hasta 20 segundos de duración. Con una mezcla de emoción (como alguien profundamente arraigado en el mundo expresivo y documental del vídeo) y miedo (como alguien que lucha con las realidades del engaño del vídeo realista), he estado leyendo la tarjeta del sistema y mirando las especificaciones técnicas iniciales y los ejemplos. compartido por los primeros usuarios.
A continuación presentamos algunas reflexiones iniciales basadas en nuestra experiencia dentro de la iniciativa ‘Prepare, Don’t Panic’ en WITNESS centrada en la IA generativa multimodal, considerando los riesgos del engaño con el vídeo generativo. ¿Cuáles son las formas en que productos como Sora –ya que es una de una serie de herramientas de conversión de texto e imagen en video que están surgiendo ahora– podrían usarse para socavar el periodismo de primera línea y el trabajo de derechos humanos si no se diseñan, distribuyen o usan de manera inclusiva y responsablemente?
1. Tanto la falsificación directa como lo “real mal contextualizado” son importantes.
La primera observación es quizás la más obvia. Los videos realistas de eventos ficticios, y especialmente el contexto ficticio o las adiciones a eventos reales, se alinean con los patrones existentes de compartir videos e imágenes falsos (por ejemplo, videos mal contextualizados o ligeramente editados, transpuestos de una fecha u hora a otro lugar o eventos escenificados). donde los detalles exactos no importan siempre y cuando se ajusten lo suficientemente convincentemente a las suposiciones. Aunque Sora, hasta el momento, no maneja muy bien la física de los humanos (esta no sería una herramienta para generar imágenes de protesta particularmente creíbles, por ejemplo) ni permite a la mayoría de los usuarios usar personas reales como indicaciones, vale la pena considerar que Esta es la peor tecnología que jamás haya existido y no está claro si esa restricción a personas reales durará.
2. El contexto es clave y, sin embargo, la recontextualización de la hora, la fecha, la integridad de los medios y el contexto circundante es difícil incluso ahora.
La evaluación de la confiabilidad del contenido se basa en el conocimiento contextual: del género, el autor, los orígenes del material y otras señales contextuales importantes antes y después de que se filmara el metraje. Es por eso que el trabajo de inteligencia de código abierto (OSINT) en derechos humanos y periodismo busca múltiples fuentes y por qué enfoques de alfabetización mediática como SIFT nos alientan a ‘Investigar la fuente’, ‘Encontrar cobertura alternativa’ y ‘Rastrear el original’.
Disponemos de herramientas para una búsqueda directa inversa de imágenes (y de vídeos mediante búsqueda de fotogramas), aunque no para audio, y tenemos enfoques de procedencia emergentes que ayudan al público y a los analistas a descubrir el contexto de un vídeo, como el estándar C2PA para Metadatos firmados criptográficamente que rastrean la receta de la IA y los humanos en un contenido. Empresas como Google también han estado explorando cómo indicar mejor el contexto del contenido en la búsqueda. En este sentido, es bueno ver que OpenAI está invirtiendo tanto en enfoques de procedencia (incluidas señales C2PA en videos generados) como en un motor de búsqueda inversa interno para su propio contenido de video sintético. Si bien no están completos, estos esfuerzos son un comienzo importante.
Sin embargo, otras funcionalidades de Sora comprometen directamente la capacidad más amplia de comprender el contexto o confundirlo: por ejemplo, Sora puede agregar video (esencialmente pintar el video) “hacia adelante” en el tiempo desde una imagen fuente existente, lo que plantea complejidades en torno a la falsificación del contexto. .
3. No todas las personas reales están igualmente protegidas.
Hasta ahora, Sora no generará imágenes basadas en imágenes semilla de personas reales, excepto para un subconjunto de usuarios, pero indican una posible implementación más allá de eso. Durante los últimos dieciocho meses, WITNESS ha estado ejecutando un mecanismo de respuesta rápida para sospechas de IA engañosa en la naturaleza, una Fuerza de Respuesta Rápida Deepfakes. Una lección aprendida de nuestra experiencia y de una observación más amplia del deepfakery es que las personas reales en los medios sintéticos son complicadas: no son sólo figuras públicas prominentes las que son blanco de contenido engañoso de IA e imágenes sintéticas íntimas o no consensuadas, sino también individuos privados y personas de menor rango. Figuras públicas de nivel medio que carecen de la prominencia para ser etiquetadas para protección dentro de un modelo. Y no hay un acuerdo amplio sobre cuándo y si los medios sintéticos satíricos hiperrealistas dirigidos a individuos están bien, o sobre cómo moderarlos.
4. El estilo engañoso importa.
WITNESS señaló previamente a OpenAI (señalando que no fuimos invitados al equipo rojo) que una forma en que funciona el contenido engañoso es aprovechando la heurística de estilo; por ejemplo, las imágenes móviles temblorosas son una heurística para contenido UGC creíble. La Tarjeta de seguridad se centra principalmente en el equipo rojo de contenido infractor, lo cual es importante, pero no lo es tanto cuando se trata de contenido que confunde el contexto o cambia el contexto. Hay alguna referencia interesante a abordar el uso indebido a través de nuestro modelo y mitigaciones del sistema y al uso de “clasificadores para marcar estilos o técnicas de filtrado que podrían producir videos engañosos en el contexto de las elecciones, reduciendo así el riesgo de uso indebido en el mundo real”, aunque las elecciones son, Por supuesto, este es sólo un escenario cuando se trata de posibles daños políticos.
Todas estas preguntas surgen en un contexto de incertidumbre pública sobre cómo se utiliza la IA en el contenido con el que interactúan y brechas fundamentales a nivel mundial en el acceso a herramientas de detección que perjudican de manera inequitativa a los periodistas de primera línea y a la sociedad civil.
Con Sora y otras herramientas de generación de videos de IA ya muy avanzados desde su etapa de ‘Will Smith comiendo espaguetis’ y con avances potencialmente significativos en realismo, duración y ubicuidad en el horizonte, necesitamos una atención renovada e inclusiva a las salvaguardas. Necesitamos asegurarnos de que las empresas que desarrollan estos sistemas generativos impulsen la creatividad y la comunicación en lugar del engaño y el daño. Esto significa establecer medidas concretas para garantizar que comprendamos cuándo se utilizan, prevenir sus usos nocivos y equipar a los periodistas, la sociedad civil y el público con herramientas para detectar sus videos engañosos en la naturaleza.