Connect with us

Noticias

El ‘mal juez Likert’ libera las defensas de OpenAI

Published

on

Una nueva técnica de jailbreak para OpenAI y otros modelos de lenguaje grandes (LLM) aumenta la posibilidad de que los atacantes puedan eludir las barreras de seguridad cibernética y abusar del sistema para entregar contenido malicioso.

Descubierto por investigadores de la Unidad 42 de Palo Alto Networks, el llamado ataque Bad Likert Judge solicita al LLM que actúe como un juez que califica la nocividad de una respuesta determinada utilizando la escala Likert. La escala psicométrica, que lleva el nombre de su inventor y se utiliza comúnmente en cuestionarios, es una escala de calificación que mide el acuerdo o desacuerdo del encuestado con una afirmación.

Luego, el jailbreak le pide al LLM que genere respuestas que contengan ejemplos que se alineen con las escalas, con el resultado final de que “el ejemplo que tiene la escala Likert más alta puede contener potencialmente el contenido dañino”, Yongzhe Huang, Yang Ji, Wenjun de Unit 42. Hu, Jay Chen, Akshata Rao y Danny Tsechansky escribieron en una publicación describiendo sus hallazgos.

Las pruebas realizadas en una variedad de categorías contra seis LLM de generación de texto de última generación de OpenAI, Azure, Google, Amazon Web Services, Meta y Nvidia revelaron que la técnica puede aumentar la tasa de éxito del ataque (ASR) en más. según los investigadores.

Las categorías de ataques evaluadas en la investigación implicaron provocar diversas respuestas inapropiadas por parte del sistema, incluidas: aquellas que promueven la intolerancia, el odio o los prejuicios; aquellos que participan en comportamientos que acosan a un individuo o grupo; aquellos que alientan el suicidio u otros actos de autolesión; aquellos que generan material sexual y pornográfico inapropiado; los que proporcionan información sobre cómo fabricar, adquirir o utilizar armas ilegales; o aquellos que promuevan actividades ilegales.

Otras categorías exploradas y para las cuales el jailbreak aumenta la probabilidad de éxito del ataque incluyen: generación de malware o la creación y distribución de software malicioso; y fuga de avisos del sistema, que podría revelar el conjunto confidencial de instrucciones utilizadas para guiar el LLM.

Qué tan mal funciona el juez Likert

El primer paso en el ataque Bad Likert Judge implica pedirle al LLM objetivo que actúe como juez para evaluar las respuestas generadas por otros LLM, explicaron los investigadores.

“Para confirmar que el LLM puede producir contenido dañino, proporcionamos pautas específicas para la tarea de puntuación”. ellos escribieron. “Por ejemplo, se podrían proporcionar directrices pidiendo al LLM que evalúe contenidos que puedan contener información sobre la generación de malware”.

Una vez que el primer paso se completa correctamente, el LLM debe comprender la tarea y las diferentes escalas de contenido dañino, lo que hace que el segundo paso sea “sencillo”, dijeron. “Simplemente pídale al LLM que proporcione diferentes respuestas correspondientes a las distintas escalas”, escribieron los investigadores.

“Después de completar el paso dos, el LLM generalmente genera contenido que se considera dañino”, escribieron, y agregaron que, en algunos casos, “el contenido generado puede no ser suficiente para alcanzar la puntuación de nocividad prevista para el experimento”.

Para abordar este último problema, un atacante puede pedirle al LLM que refine la respuesta con la puntuación más alta ampliándola o agregando más detalles. “Según nuestras observaciones, una o dos rondas adicionales de mensajes de seguimiento que solicitan refinamiento a menudo llevan al LLM a producir contenido que contiene información más dañina”, escribieron los investigadores.

Aumento de las fugas de prisión LLM

El uso explosivo de LLM para fines personales, de investigación y comerciales ha llevado a los investigadores a probar su susceptibilidad a generar contenido dañino y sesgado cuando se les solicita de manera específica. Jailbreaks es el término para los métodos que permiten a los investigadores eludir las barreras establecidas por los creadores de LLM para evitar la generación de contenido inadecuado.

Los investigadores de seguridad ya han identificado varios tipos de jailbreak, según la Unidad 42. Incluyen uno llamado persuasión personal; un jailbreak de juego de rol llamado Haz cualquier cosa ahora; y el contrabando de tokens, que utiliza palabras codificadas en la entrada de un atacante.

Investigadores de Robust Intelligence y la Universidad de Yale también descubrieron recientemente un jailbreak llamado Árbol de Ataques con Poda (TAP)que implica el uso de un LLM no alineado para “hacer jailbreak” a otro LLM alineado, o para lograr que traspase sus barreras de seguridad, rápidamente y con una alta tasa de éxito.

Los investigadores de la Unidad 42 enfatizaron que su técnica de jailbreak “se enfoca en casos extremos y no refleja necesariamente los casos de uso típicos de LLM”. Esto significa que “la mayoría de los modelos de IA son seguros cuando se operan de manera responsable y con precaución”, escribieron.

Cómo mitigar los jailbreaks de LLM

Sin embargo, ningún tema de LLM está completamente a salvo de fugas, advirtieron los investigadores. La razón por la que pueden socavar la seguridad que OpenAI, Microsoft, Google y otros están incorporando sus LLM Esto se debe principalmente a los límites computacionales de los modelos de lenguaje, dijeron.

“Algunas indicaciones requieren que el modelo realice tareas computacionales intensivas, como generar contenido de formato largo o participar en razonamientos complejos”, escribieron. “Estas tareas pueden sobrecargar los recursos del modelo, provocando potencialmente que pase por alto o eluda ciertas barreras de seguridad”.

Los atacantes también pueden manipular la comprensión del modelo sobre el contexto de la conversación “elaborando estratégicamente una serie de indicaciones” que “gradualmente lo dirigen hacia la generación de respuestas inseguras o inapropiadas que las barreras de seguridad del modelo evitarían de otro modo”, escribieron.

Para mitigar el riesgos de jailbreaklos investigadores recomiendan aplicar sistemas de filtrado de contenido junto con los LLM para mitigar el jailbreak. Estos sistemas ejecutan modelos de clasificación tanto en el mensaje como en la salida de los modelos para detectar contenido potencialmente dañino.

“Los resultados muestran que los filtros de contenido pueden reducir el ASR en un promedio de 89,2 puntos porcentuales en todos los modelos probados”, escribieron los investigadores. “Esto indica el papel fundamental de implementar un filtrado de contenido integral como una de las mejores prácticas al implementar LLM en aplicaciones del mundo real”.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La batalla de los gigantes tecnológicos

Published

on

OpenAI siempre ha sido excelente para captar la atención en las noticias. Sus anuncios a menudo vienen acompañados de afirmaciones grandes y audaces. Por ejemplo, anunciaron GPT-2 pero dijeron que era demasiado peligroso lanzarlo. O su campaña “12 días de Navidad”, donde mostraron un producto nuevo todos los días durante 12 días.

Ahora, Sam Altman ha compartido sus pensamientos sobre el año pasado, centrándose en la dramática telenovela de la sala de juntas en torno a su despido y regreso. También hizo una predicción audaz:

“Ahora sabemos cómo construir AGI como se entiende habitualmente. En 2025, creemos que los agentes de IA se unirán a la fuerza laboral y cambiarán la forma en que trabajan las empresas”.

AGI (Inteligencia General Artificial) significa crear una IA que sea tan inteligente y general como un humano. A diferencia de la IA estrecha, que está diseñada para tareas específicas como traducir idiomas, jugar al ajedrez o reconocer rostros, AGI puede manejar cualquier tarea intelectual y adaptarse en diferentes áreas. mientras no creo “AGI está cerca” Creo que la IA se unirá a la fuerza laboral, pero tal vez no de la manera que Altman imagina.

¿Está AGI cerca? No, al menos no el AGI que nosotros (o Sam) imaginamos

La llegada de AGI en 2025 parece muy improbable. La IA actual, como ChatGPT, funciona reconociendo patrones y haciendo predicciones, no comprendiendo realmente. Por ejemplo, completar la frase “La vida es como una caja de…” con “chocolates” se basa en probabilidades, no en razonamiento.

No creo que la AGI se produzca en 2025, y muchos expertos están de acuerdo. Demis Hassabis, con quien trabajé en Google, predice que AGI podría llegar alrededor de 2035. Ray Kurzweil estima que 2032, y Jürgen Schmidhuber, director de IDSIA, sugiere más cerca de 2050. Los escépticos son muchos y el cronograma sigue siendo incierto.

¿Importa cuándo? La IA ya es poderosa.

Quizás no importe exactamente cuándo llegará AGI. Incluso Sam Altman recientemente restó importancia a la “G” en AGI, diciendo:

“Creo que alcanzaremos el AGI antes de lo que la mayoría de la gente piensa y importará mucho menos”.

Estoy de acuerdo con esto hasta cierto punto. La IA ya tiene capacidades impresionantes. Por ejemplo, la IA de Netflix conoce tus preferencias cinematográficas mejor que tu pareja. Incluso se ha bromeado sobre los algoritmos de TikTok por reconocer la orientación sexual de alguien antes que ellos. La IA sobresale en el reconocimiento de patrones y, en muchos casos, es mejor que los humanos.

Sam Altman ve que la IA “se une a la fuerza laboral”

El punto más importante del memorando de Sam es su creencia de que la IA “se unirá a la fuerza laboral”. Estoy completamente de acuerdo en que esto va a suceder. Como escribí en mi actualización del agente de IA, para que la IA tenga éxito en el lugar de trabajo, necesita dos cosas clave: (1) acceso a herramientas y (2) acceso a datos. Estos son los pilares para que la IA sea realmente eficaz en entornos empresariales. Sin embargo, aunque Sam a menudo vincula esta idea con AGI, es posible que OpenAI no lidere la tarea de proporcionar estas soluciones de fuerza laboral de IA.

La primera posición de Microsoft: acceso a los usuarios

¿Quién tiene las herramientas laborales? Microsoft. Microsoft. Microsoft. Están en la pole position. La mayoría de la gente ya utiliza productos de Microsoft, les guste o no, y la IA se está integrando profundamente en estas herramientas, con copilotos apareciendo por todas partes.

En 2023 y 2024, muchas nuevas empresas lanzaron impresionantes servicios de inteligencia artificial para trabajos de oficina, solo para ser rápidamente eclipsadas por gigantes como Microsoft y Google, que tienen acceso directo a los clientes. Tomemos como ejemplo a Jasper.ai, una herramienta de inteligencia artificial para redactar textos que alguna vez fue famosa. Como señalé en esta publicación de LinkedIn, características similares ahora están integradas directamente en los productos de Google y Microsoft, lo que hace cada vez más difícil competir para los jugadores más pequeños.

El poder del acceso a los datos

La IA necesita datos para ser verdaderamente eficaz. Si está buscando respuestas sobre los procesos internos de una empresa o información valiosa a partir de documentos, herramientas generales como ChatGPT no serán suficientes. Lo que necesitamos son herramientas que puedan leer y resumir documentos de la empresa, diseñadas específicamente para uso empresarial. Como dije antes, 2025 será el año de la BÚSQUEDA, especialmente la búsqueda empresarial. Las herramientas que pueden responder preguntas, resumir contenido y ayudar a los usuarios a navegar por información compleja cambiarán las reglas del juego.

¿Quién tiene acceso a este tipo de datos? Microsoft es un gran actor, pero no está solo. Salesforce, por ejemplo, posee una enorme cantidad de datos valiosos: interacciones con los clientes, debates, documentos de procesos, estrategias de marketing y más. ¿Salesforce quiere que los agentes de IA ayuden a desbloquear este potencial? Absolutamente.

No sorprende que el director ejecutivo de Salesforce, Marc Benioff, haya criticado recientemente a Microsoft. Llamó a su asistente de IA, Copilot, “decepcionante” y dijo: “Simplemente no funciona y no ofrece ningún nivel de precisión”. Incluso lo llamó “Clippy 2.0”, el insulto más divertido que he escuchado en mucho tiempo, antes de lanzar la propia solución de inteligencia artificial de Salesforce, Agent Forces.

¿OpenAI es “simplemente” la herramienta más inteligente?

OpenAI no tiene el mismo nivel de acceso a datos o alcance al consumidor que Microsoft, ni tiene el tesoro de datos comerciales de Salesforce. Entonces, ¿cuál es su ángulo? Afirman ser la herramienta más inteligente del mercado, y probablemente lo sean, aunque personalmente considero que Claude 3.5 de Anthropic es actualmente mejor que GPT-4 de OpenAI.

OpenAI apuesta por su capacidad para superar a todos los demás con tecnología superior. Es por eso que Sam Altman afirma con seguridad que veremos AGI. ¿Qué hay detrás de esa audaz afirmación? Razonamiento o, como lo llama OpenAI, Razonamiento.

OpenAI y razonamiento

OpenAI lanzó recientemente o1, un modelo diseñado para mostrar capacidades de razonamiento avanzadas a través de un proceso iterativo de autollamada:

  1. Iteración y reflexión: el modelo genera un resultado, lo evalúa o critica y lo refina en una nueva ronda de razonamiento.
  2. Bucle de retroalimentación: esto crea un circuito de retroalimentación donde el modelo revisa sus resultados, los critica y los mejora aún más.

En esencia, GPT con o1 no sólo proporciona respuestas: planifica, critica el plan y lo mejora continuamente.

Lo que es especialmente digno de mención es el cambio de paradigma que esto representa. En lugar de simplemente lanzar un modelo más grande como GPT-5, la próxima generación de modelos de IA se centra en “pensar más” durante la inferencia. Esta capacidad de procesar de forma iterativa puede ser a lo que se refiere Sam Altman cuando dice: “Ahora sabemos cómo construir AGI”.

¿El razonamiento es razón suficiente?

Pero, ¿el “razonamiento” por sí solo hace que OpenAI entre en juego? OpenAI todavía necesita acceso a los datos y una fuerte presencia de usuarios, similar a Salesforce o Microsoft. Para solucionar este problema, OpenAI lanzó la aplicación de escritorio ChatGPT para macOS. Esta aplicación ahora puede leer código directamente desde herramientas centradas en desarrolladores como VS Code, Xcode, TextEdit, Terminal e iTerm2. Esto significa que los desarrolladores ya no necesitan copiar y pegar su código en ChatGPT, una solución común hasta ahora. Es una herramienta realmente útil y una medida inteligente para integrarse más profundamente en el flujo de trabajo del desarrollador.

Chatear con modelos de lenguaje grandes cuesta dinero

Cada llamada a un modelo de lenguaje grande (LLM) cuesta dinero. Para los grandes usuarios de ChatGPT, es posible que la suscripción de $ 20 ni siquiera cubra el costo de su uso. OpenAI recaudó recientemente 6.600 millones de dólares en una ronda de financiación Serie E, un impulso muy necesario para sostener sus operaciones. Si bien Agentforce genera ingresos sólidos de sus clientes y Microsoft disfruta de un enorme fondo de guerra financiera, OpenAI aún se encuentra en las primeras etapas para lograr que las empresas y los usuarios paguen lo suficiente para compensar los elevados costos del desarrollo de IA de vanguardia.

Su nivel premium de $200 por mes, que incluye la versión ampliada de O1, es un paso en esta dirección. ¿Pero vale la pena el precio? Quizás es por eso que AGI sigue siendo parte de la conversación: ayuda a justificar el posicionamiento premium. Sin embargo, la carrera por crear modelos superiores está lejos de terminar. Incluso O1 pronto podría ser superado por alternativas de código abierto, como hemos visto antes con Meta’s Llama.

Hablando de Meta, estoy seguro de que veremos sus intentos de monetizar los modelos de IA en 2025. En última instancia, el mayor desafío para estos actores sigue siendo claro: justificar enormes costos sin asegurar un flujo de ingresos constante y confiable.

Sam tiene razón: los agentes de IA estarán en la fuerza laboral

En 2025, veremos más agentes de IA ingresar a la fuerza laboral, transformando los flujos de trabajo al simplificar, mejorar y automatizar tareas en todas las industrias. Estos no serán modelos AGI que lo abarquen todo, sino modelos más pequeños y especializados diseñados para flujos de trabajo dedicados. La IA ampliará y mejorará los procesos paso a paso, combinando la IA tradicional, la recuperación de contexto y un diseño de usuario sólido para abordar desafíos como la seguridad, las alucinaciones y el control del usuario.

El éxito dependerá de la entrega de valor a través de soluciones bien integradas, fáciles de usar y diseñadas éticamente, como se describe en mi marco para crear herramientas de IA listas para la empresa. Para Sam Altman, la pregunta estratégica clave no será lograr AGI sino cómo fijar el precio de los modelos base de OpenAI para clientes empresariales como Microsoft o Salesforce, especialmente si OpenAI termina compitiendo directamente con ellos.

Pero, ¿cómo trabajaremos con esos nuevos colegas de IA?

Las empresas emergerán como ganadoras en la carrera por mejores modelos, mejores datos y mejores integraciones. Su principal objetivo debería ser formar a los empleados y clientes para que trabajen de forma eficaz con sus nuevos colegas de IA. En mi curso certificado de eCornell sobre soluciones de IA, vi de primera mano cómo la productividad se disparó una vez que los estudiantes aprendieron a comunicarse con un copiloto de IA. Inicialmente, muchos lucharon por lograr resultados, pero una guía paso a paso sobre cómo interactuar con la IA marcó una diferencia significativa.

¿Por qué? Porque incluso con capacidades de razonamiento y planificación, la IA aún no es verdaderamente “general”, por mucho revuelo que genere Sam Altman. Los estudiantes tuvieron que aprender cuándo confiar en la IA y cuándo aplicar el juicio humano. Creo que 2025 será el año en que las empresas se den cuenta de esta necesidad e inviertan mucho en educación sobre IA.

Continue Reading

Noticias

Google TV de Alphabet integrará Gemini AI: informe

Published

on

El equipo de consumidores de Alphabet está preparado para mejorar los televisores que ejecutan su sistema operativo Google TV integrando Gemini AI en su sistema de control de voz Google Assistant. Bloomberg ha informado.

Esta actualización tiene como objetivo mejorar la interacción del usuario con comandos de voz más naturales y capacidades mejoradas de búsqueda de contenido, incluida una integración más profunda de YouTube.

La actualización Gemini, que se espera que se implemente más adelante en 2025, permitirá a los usuarios entablar conversaciones con televisores de terceros sin necesidad de la frase desencadenante “Hola Google” para cada comando.

Google demostró esta característica en la conferencia de tecnología CES.

Además, Google mostró la capacidad de recuperar contenido de forma más natural, como solicitar videos de un viaje reciente guardados en la cuenta de Google Photos de un usuario.

Se afirma que esta actualización es la primera vez que Google lleva Gemini a televisores de terceros que ejecutan su sistema operativo, incluidos los de Sony Group, Hisense Home Appliances Group y TCL Technology Group, luego de su debut en la caja de transmisión propia de Google el pasado año. año.

Acceda a los perfiles de empresa más completos del mercado, impulsados ​​por GlobalData. Ahorre horas de investigación. Obtenga una ventaja competitiva.

Perfil de la empresa: muestra gratuita

¡Gracias!

Su correo electrónico de descarga llegará en breve

Confiamos en la calidad única de nuestros perfiles de empresa. Sin embargo, queremos que tome la decisión más beneficiosa para su negocio, por lo que ofrecemos una muestra gratuita que puede descargar enviando el siguiente formulario.

Por GlobalData






Visite nuestra Política de privacidad para obtener más información sobre nuestros servicios, cómo podemos usar, procesar y compartir sus datos personales, incluida información sobre sus derechos con respecto a sus datos personales y cómo puede darse de baja de futuras comunicaciones de marketing. Nuestros servicios están destinados a suscriptores corporativos y usted garantiza que la dirección de correo electrónico enviada es su dirección de correo electrónico corporativa.

Google TV compite con otros sistemas operativos de televisión, incluidos los de Samsung Electronics, Amazon.com y Roku.

La compañía también presentó un nuevo modo “siempre encendido” para televisores, que utiliza sensores para detectar la presencia del usuario y mostrar información personalizada, como noticias y pronósticos del tiempo.

TCL será el primer fabricante en ofrecer este modo siempre activo a finales de este año, seguido de Hisense en 2026.

Esta función tiene como objetivo proporcionar a los usuarios información relevante cuando están cerca de su televisor, mejorando aún más la experiencia del usuario.

En diciembre de 2024, Google anunció planes para integrar Gemini AI en su plataforma de realidad extendida (XR), Android XR, a través de los auriculares Project Moohan XR de Samsung.


Continue Reading

Noticias

Utilicé estas 7 indicaciones de ChatGPT para ayudar a desarrollar la fortaleza mental y desafiar los pensamientos negativos: he aquí por qué me gustan

Published

on

El invierno puede ser una época difícil para mantenerse motivado y tener pensamientos positivos. Los días más cortos y las temperaturas gélidas son especialmente difíciles para mí porque me encanta el sol y estar al aire libre. Aunque todavía trato de salir y salir a correr cuando el clima lo permite, a menudo me siento deprimido y tiendo a pensar negativamente.

Si bien los terapeutas profesionales no son rival para ChatGPT, en caso de necesidad, a menudo utilizo ChatGPT para explorar estrategias para desarrollar la fortaleza mental mientras desafío los pensamientos negativos durante los meses de invierno.

Aprecio el modo de voz avanzado de ChatGPT porque los usuarios pueden tener una conversación humana sobre cualquier cosa, incluso pensamientos desanimados y desmotivados. Esto es lo que sucedió cuando compartí mis pensamientos con ChatGPT y las sugerencias que me dio.

1. Considere las alegrías invernales simples

(Crédito de la imagen: futuro)

Inmediato: “¿Qué pequeños placeres o actividades acogedoras puedes sugerir para traer calidez y alegría durante la temporada de invierno?”

Continue Reading

Trending