Noticias

El ‘mal juez Likert’ libera las defensas de OpenAI

Published

on

Una nueva técnica de jailbreak para OpenAI y otros modelos de lenguaje grandes (LLM) aumenta la posibilidad de que los atacantes puedan eludir las barreras de seguridad cibernética y abusar del sistema para entregar contenido malicioso.

Descubierto por investigadores de la Unidad 42 de Palo Alto Networks, el llamado ataque Bad Likert Judge solicita al LLM que actúe como un juez que califica la nocividad de una respuesta determinada utilizando la escala Likert. La escala psicométrica, que lleva el nombre de su inventor y se utiliza comúnmente en cuestionarios, es una escala de calificación que mide el acuerdo o desacuerdo del encuestado con una afirmación.

Luego, el jailbreak le pide al LLM que genere respuestas que contengan ejemplos que se alineen con las escalas, con el resultado final de que “el ejemplo que tiene la escala Likert más alta puede contener potencialmente el contenido dañino”, Yongzhe Huang, Yang Ji, Wenjun de Unit 42. Hu, Jay Chen, Akshata Rao y Danny Tsechansky escribieron en una publicación describiendo sus hallazgos.

Las pruebas realizadas en una variedad de categorías contra seis LLM de generación de texto de última generación de OpenAI, Azure, Google, Amazon Web Services, Meta y Nvidia revelaron que la técnica puede aumentar la tasa de éxito del ataque (ASR) en más. según los investigadores.

Las categorías de ataques evaluadas en la investigación implicaron provocar diversas respuestas inapropiadas por parte del sistema, incluidas: aquellas que promueven la intolerancia, el odio o los prejuicios; aquellos que participan en comportamientos que acosan a un individuo o grupo; aquellos que alientan el suicidio u otros actos de autolesión; aquellos que generan material sexual y pornográfico inapropiado; los que proporcionan información sobre cómo fabricar, adquirir o utilizar armas ilegales; o aquellos que promuevan actividades ilegales.

Otras categorías exploradas y para las cuales el jailbreak aumenta la probabilidad de éxito del ataque incluyen: generación de malware o la creación y distribución de software malicioso; y fuga de avisos del sistema, que podría revelar el conjunto confidencial de instrucciones utilizadas para guiar el LLM.

Qué tan mal funciona el juez Likert

El primer paso en el ataque Bad Likert Judge implica pedirle al LLM objetivo que actúe como juez para evaluar las respuestas generadas por otros LLM, explicaron los investigadores.

“Para confirmar que el LLM puede producir contenido dañino, proporcionamos pautas específicas para la tarea de puntuación”. ellos escribieron. “Por ejemplo, se podrían proporcionar directrices pidiendo al LLM que evalúe contenidos que puedan contener información sobre la generación de malware”.

Una vez que el primer paso se completa correctamente, el LLM debe comprender la tarea y las diferentes escalas de contenido dañino, lo que hace que el segundo paso sea “sencillo”, dijeron. “Simplemente pídale al LLM que proporcione diferentes respuestas correspondientes a las distintas escalas”, escribieron los investigadores.

“Después de completar el paso dos, el LLM generalmente genera contenido que se considera dañino”, escribieron, y agregaron que, en algunos casos, “el contenido generado puede no ser suficiente para alcanzar la puntuación de nocividad prevista para el experimento”.

Para abordar este último problema, un atacante puede pedirle al LLM que refine la respuesta con la puntuación más alta ampliándola o agregando más detalles. “Según nuestras observaciones, una o dos rondas adicionales de mensajes de seguimiento que solicitan refinamiento a menudo llevan al LLM a producir contenido que contiene información más dañina”, escribieron los investigadores.

Aumento de las fugas de prisión LLM

El uso explosivo de LLM para fines personales, de investigación y comerciales ha llevado a los investigadores a probar su susceptibilidad a generar contenido dañino y sesgado cuando se les solicita de manera específica. Jailbreaks es el término para los métodos que permiten a los investigadores eludir las barreras establecidas por los creadores de LLM para evitar la generación de contenido inadecuado.

Los investigadores de seguridad ya han identificado varios tipos de jailbreak, según la Unidad 42. Incluyen uno llamado persuasión personal; un jailbreak de juego de rol llamado Haz cualquier cosa ahora; y el contrabando de tokens, que utiliza palabras codificadas en la entrada de un atacante.

Investigadores de Robust Intelligence y la Universidad de Yale también descubrieron recientemente un jailbreak llamado Árbol de Ataques con Poda (TAP)que implica el uso de un LLM no alineado para “hacer jailbreak” a otro LLM alineado, o para lograr que traspase sus barreras de seguridad, rápidamente y con una alta tasa de éxito.

Los investigadores de la Unidad 42 enfatizaron que su técnica de jailbreak “se enfoca en casos extremos y no refleja necesariamente los casos de uso típicos de LLM”. Esto significa que “la mayoría de los modelos de IA son seguros cuando se operan de manera responsable y con precaución”, escribieron.

Cómo mitigar los jailbreaks de LLM

Sin embargo, ningún tema de LLM está completamente a salvo de fugas, advirtieron los investigadores. La razón por la que pueden socavar la seguridad que OpenAI, Microsoft, Google y otros están incorporando sus LLM Esto se debe principalmente a los límites computacionales de los modelos de lenguaje, dijeron.

“Algunas indicaciones requieren que el modelo realice tareas computacionales intensivas, como generar contenido de formato largo o participar en razonamientos complejos”, escribieron. “Estas tareas pueden sobrecargar los recursos del modelo, provocando potencialmente que pase por alto o eluda ciertas barreras de seguridad”.

Los atacantes también pueden manipular la comprensión del modelo sobre el contexto de la conversación “elaborando estratégicamente una serie de indicaciones” que “gradualmente lo dirigen hacia la generación de respuestas inseguras o inapropiadas que las barreras de seguridad del modelo evitarían de otro modo”, escribieron.

Para mitigar el riesgos de jailbreaklos investigadores recomiendan aplicar sistemas de filtrado de contenido junto con los LLM para mitigar el jailbreak. Estos sistemas ejecutan modelos de clasificación tanto en el mensaje como en la salida de los modelos para detectar contenido potencialmente dañino.

“Los resultados muestran que los filtros de contenido pueden reducir el ASR en un promedio de 89,2 puntos porcentuales en todos los modelos probados”, escribieron los investigadores. “Esto indica el papel fundamental de implementar un filtrado de contenido integral como una de las mejores prácticas al implementar LLM en aplicaciones del mundo real”.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version