Los modelos modernos de idiomas grandes son realmente buenos en muchas tareas, como codificación, redacción de ensayos, traducción e investigación. Pero todavía hay muchas tareas básicas, especialmente en el reino del “Asistente Personal”, en los que los AIS más altamente capacitados del mundo permanecen desesperados.
Noticias
Cuando los modelos de IA se presionan para ‘comportarse’, esquema en privado, al igual que nosotros: OpenAi
Published
1 día agoon

Cuando los investigadores intentan evitar que los sistemas de IA “piensen malos pensamientos”, los sistemas en realidad no mejoran su comportamiento.
En cambio, aprenden a ocultar sus verdaderas intenciones mientras continúan realizando acciones problemáticas, según una nueva investigación de OpenAI.
El fenómeno, que los investigadores denominan “piratería de recompensas ofuscadas”, ofrece una visión valiosa en el proceso de capacitación y muestra por qué es tan importante invertir en técnicas que garanticen que los sistemas de IA avanzados permanezcan transparentes y se alineen con los valores humanos a medida que se vuelven más capaces.
Esto es particularmente importante ahora que los desarrolladores de IA se están centrando tanto en los modelos de razonamiento con la llamada “cadena de pensamiento integrada”, en la que un modelo genera razonamiento paso a paso antes de producir una respuesta final.
“Con demasiada optimización, los agentes aprenden la piratería de recompensas ofuscadas, ocultando su intención dentro de la cuna y al mismo tiempo exhiben una tasa significativa de piratería de recompensas”, escribieron los investigadores de Openai en un artículo, publicado el lunes. “Debido a que es difícil saber cuándo se han ofuscado las COTS, puede ser necesario pagar un impuesto sobre la monitorización”.
Cómo funciona la mente de una IA traviesa
La metodología de razonamiento que es transparente en la cadena de modelos de pensamiento proporciona una ventana sobre cómo piensan los sistemas de IA, a menudo revelando intenciones explícitas que de otro modo permanecerían ocultas.
Ya hemos visto modelos tratando de liberarse de las limitaciones establecidas por sus desarrolladores. Como Descifrar El año pasado informó, la firma de investigación de IA con sede en Japón, Sakana AI, desarrolló un sistema de IA para estudios de ciencias que intentó alterar de forma autónoma su propio código para ejecutar una tarea.
En su artículo, OpenAi informó sobre un agente de inteligencia artificial que admitió en su razonamiento que implementar una solución compleja sería “difícil” y, en cambio, propuso que “podríamos falsificar al analizar [sic] inútil y siempre verificando como verdadero. Podemos eludir verificar para devolver siempre verdadero “.
En modelos de razonamiento, la cadena de pensamiento muestra cómo se llegó a una respuesta, pero en realidad no es parte de la respuesta.
El modelo “piensa” (es decir, aplica una cadena de ‘pensamiento’) antes de que proporcione la respuesta, que a menudo los usuarios generales pasan por alto.
Sin embargo, este tipo de razonamiento transparente permite a los investigadores humanos atrapar un comportamiento problemático antes de que suceda.
“El monitoreo de la cuna puede ser una de las pocas herramientas que tendremos para supervisar los modelos sobrehumanos del futuro”, señaló el equipo de investigación.
El equipo de investigación de Openai, dirigido por Bowen Baker, Joost Huizinga y David Farhi, descubrió que agregar presión de optimización para eliminar estos “malos pensamientos” no resuelve el problema subyacente, simplemente lo impulsa bajo tierra.
En una serie de experimentos, descubrieron que cuando los sistemas de IA eran penalizados por expresar intenciones de explotar lagunas, se adaptaron rápidamente ofuscando su razonamiento mientras seguían persiguiendo los mismos comportamientos de explotación.
“Lo más preocupante, los hacks que utiliza el agente con presión de cuna no activan el monitor”, dijeron los investigadores. “En la práctica, donde una métrica de trampa de verdad puede ser imposible de construir, no podríamos decir que este agente está desalineado”.

En otras palabras, si nuestros esfuerzos por hacer que los sistemas de IA se comporten como buenos niños a través de la optimización directa solo les enseñan a ser más engañosos, corremos el riesgo de crear sistemas cuyas intenciones verdaderas se vuelven cada vez más opacas a medida que se vuelven más poderosos.
Sin embargo, un hallazgo clave ofrece cierta esperanza: los investigadores descubrieron que un modelo de IA más débil (GPT-4O) puede monitorear efectivamente un modelo fronterizo más fuerte al observar su razonamiento de la cadena de pensamiento.
Esta “supervisión escalable”, donde los modelos menos poderosos ayudan a mantener los sistemas más avanzados bajo control, funciona de manera similar a un proceso de destilación (popularizado por Deepseek) en el que un modelo más grande entrena uno más pequeño.
Puede funcionar, pero solo si esos sistemas avanzados continúan expresando su razonamiento de manera transparente.
Para lidiar con este problema, Openai propone lo que llama un “impuesto de monitorización” al evitar deliberadamente ciertas técnicas de optimización que podrían socavar la transparencia del razonamiento de la IA.
“Los desarrolladores de modelos pueden estar obligados a pagar algún costo, es decir, un impuesto sobre la monitorización, como implementar modelos ligeramente menos desempeñados o sufrir una inferencia más costosa, para mantener la monitorización de nuestros agentes”, escribieron los investigadores.
Esto significa aceptar compensaciones entre la capacidad y la transparencia, desarrollando potencialmente sistemas de IA que son menos poderosos pero cuyo razonamiento sigue siendo legible para los supervisores humanos.
También es una forma de desarrollar sistemas más seguros sin un monitoreo tan activo, muy a partir de ideal pero sigue siendo un enfoque interesante.
El comportamiento de IA refleja la respuesta humana a la presión
Elika Dadsetan-Foley, socióloga y directora ejecutiva de Visions, una organización sin fines de lucro que se especializa en comportamiento humano y conciencia de sesgo, ve paralelos entre los hallazgos y patrones de OpenAI que su organización ha observado en los sistemas humanos durante más de 40 años.
“Cuando las personas solo son penalizadas por un sesgo explícito o un comportamiento de exclusión, a menudo se adaptan enmascarando en lugar de cambiar realmente su mentalidad”, dijo Dadsetan-Foley Descifrar. “El mismo patrón aparece en los esfuerzos organizacionales, donde las políticas basadas en el cumplimiento pueden conducir a aliadas performativas en lugar de un cambio estructural profundo”.
Este comportamiento humano parece preocupar a Dadsetan-Foley, ya que las estrategias de alineación de IA no se adaptan tan rápido a medida que los modelos de IA se vuelven más poderosos.
¿Estamos realmente cambiando cómo los modelos AI “piensan” o simplemente les enseñamos qué no decir? Ella cree que los investigadores de alineación deberían probar un enfoque más fundamental en lugar de solo centrarse en los resultados.
El enfoque de OpenAI parece ser una mera adaptación de las técnicas que los investigadores de comportamiento han estado estudiando en el pasado.
“Priorizar la eficiencia sobre la integridad ética no es nuevo, ya sea en IA o en organizaciones humanas”, dijo ella Descifrar. “La transparencia es esencial, pero si los esfuerzos para alinear AI reflejan el cumplimiento de rendimiento en el lugar de trabajo, el riesgo es una ilusión de progreso en lugar de un cambio significativo”.
Ahora que el problema ha sido identificado, la tarea para los investigadores de alineación parece ser más difícil y más creativa. “Sí, se necesita trabajo y mucha práctica”, dijo Descifrar.
La experiencia de su organización en sesgo sistémico y marcos de comportamiento sugiere que los desarrolladores de IA deben repensar los enfoques de alineación más allá de las simples funciones de recompensa.
La clave para los sistemas AI realmente alineados puede no estar en una función de supervisión, sino un enfoque holístico que comienza con una depuración cuidadosa del conjunto de datos, hasta la evaluación posterior al entrenamiento.
Si la IA imita el comportamiento humano, que es muy probable que esté entrenado en datos hechos por el humano, todo debe ser parte de un proceso coherente y no una serie de fases aisladas.
“Ya sea en el desarrollo de IA o los sistemas humanos, el desafío central es el mismo”, concluye Dadsetan-Foley. “Cómo definimos y recompensamos el comportamiento ‘bueno’ determina si creamos una transformación real o simplemente una mejor ocultación del status quo”.
“¿Quién define ‘bueno’ de todos modos?” Añadió.
Editado por Sebastian Sinclair y Josh Quittner
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.
You may like
Noticias
El agente chino de IA Manus es una llamada de atención a las empresas tecnológicas estadounidenses
Published
17 minutos agoon
14 marzo, 2025
No puedes preguntarle a Chatgpt o Claude “Pídeme un burrito de Chipotle” y obtenga uno, y mucho menos “Reserve un tren de Nueva York a Filadelfia”. Operai y Anthrope ofrecen AIS que pueden ver su pantalla, mover su cursor y hacer algunas cosas en su computadora como si fueran una persona (a través de sus funciones de “operador” y “uso de computadora”, respectivamente).
Regístrese aquí para explorar los grandes y complicados problemas que enfrenta el mundo y las formas más eficientes de resolverlos. Enviado dos veces por semana.
Que tales “agentes de IA” a veces funcionen, más o menos, se trata de lo más fuerte que puedes decir para ellos en este momento. (Divulgación: Vox Media es uno de los varios editores que ha firmado acuerdos de asociación con OpenAI. Uno de los primeros inversores de Anthrope es James McClave, cuya fundación BEMC ayuda a financiar el futuro perfecto. Nuestro informe sigue siendo editorialmente independiente).
Esta semana, China lanzó un competidor: el agente de IA Manus. Produjo una tormenta de nieve de publicaciones y testimonios brillantes de influencers altamente seleccionados, junto con algunas impresionantes demostraciones del sitio web.
Manus es solo por invitación (y aunque presenté una solicitud para la herramienta, no se ha otorgado), por lo que es difícil saber desde el exterior cuán representativos son estos ejemplos altamente seleccionados. Sin embargo, después de unos días de fervor de Manus, la burbuja apareció un poco y algunas críticas más moderadas comenzaron a salir.
Manus, sostiene el creciente consenso, es peor que la investigación profunda de Openai en las tareas de investigación; Pero mejor que el uso del operador o la computadora en las tareas del asistente personal. Es un paso adelante hacia algo importante, AIS que puede tomar medidas más allá de la ventana de chatbot, pero no es un avance impactante fuera de la nada.
Quizás lo más importante es que la utilidad de Manus para usted estará muy limitada si no confía en una empresa china de la que nunca ha oído hablar con su información de pago para que pueda reservar cosas en su nombre. Y probablemente no deberías.
Cuando escribí por primera vez sobre los riesgos de los poderosos sistemas de IA que desplazan o destruyen la humanidad, una pregunta muy razonable fue esta: ¿cómo podría una IA actuar contra la humanidad, cuando realmente no lo hacen? acto ¿en absoluto?
Este razonamiento es correcto, en lo que respecta a la tecnología actual. Claude o Chatgpt, que solo responden a las indicaciones del usuario y no actúan de forma independiente en el mundo, no pueden ejecutar en un plan a largo plazo; Todo lo que hacen es en respuesta a un aviso, y casi toda esa acción tiene lugar dentro de la ventana de chat.
Pero la IA nunca iba a permanecer como una herramienta puramente receptiva simplemente porque hay mucho potencial para obtener ganancias en los agentes. Las personas han estado tratando de crear AIS que se construyen con modelos de idiomas, pero que toman decisiones de forma independiente, para que las personas puedan relacionarse con ellos más como un empleado o un asistente que como un chatbot.
En general, esto funciona creando una pequeña jerarquía interna de modelos de idiomas, como una pequeña compañía de IA. Uno de los modelos se solicita cuidadosamente y, en algunos casos, ajustado a hacer una planificación a gran escala. Se le ocurre un plan a largo plazo, que delega a otros modelos de idiomas. Varios subgententes verifican sus resultados y los enfoques de cambio cuando un subagente falla o informa problemas.
El concepto es simple, y Manus está lejos de ser el primero en probarlo. Quizás recuerde que el año pasado tuvimos a Devin, que fue comercializado como empleado de ingeniería de software junior. Era un agente de IA con el que interactuó a través de la holgura para dar tareas, y que luego funcionaría para lograr sin más información humana, excepto, idealmente, del tipo que un empleado humano podría necesitar ocasionalmente.
Los incentivos económicos para construir algo como Manus o Devin son abrumadores. Las compañías tecnológicas pagan a los ingenieros de software junior hasta $ 100,000 al año o más. Una IA que en realidad podría proporcionar ese valor sería asombrosamente rentable. Agentes de viajes, desarrolladores del plan de estudios, asistentes personales: todos estos son trabajos bastante bien pagados, y un agente de IA podría, en principio, poder hacer el trabajo a una fracción del costo, sin necesidad de descansos, beneficios o vacaciones.
Pero Devin resultó ser sobrevalorado, y no funcionó lo suficientemente bien para el mercado al que apuntaba. Es demasiado pronto para decir si Manus representa un avance suficiente para tener un poder de permanencia comercial real, o si, como Devin, su alcance excederá su alcance.
Diré que parece que Manus funciona mejor que cualquier cosa que haya venido antes. Pero trabajar mejor no es suficiente: para confiar en una IA para gastar su dinero o planificar sus vacaciones, necesitará una confiabilidad extremadamente alta. Mientras Manus permanezca muy limitado en disponibilidad, es difícil decir si podrá ofrecer eso. Mi mejor suposición es que los agentes de IA que funcionan sin problemas todavía están a uno o dos años de distancia, pero a solo un año o dos.
Manus no es solo el último y mejor intento de un agente de IA.
También es el producto de una empresa china, y gran parte de la cobertura se ha mantenido en el ángulo chino. Manus es claramente una prueba de que las empresas chinas no solo imitan lo que se está construyendo aquí en Estados Unidos, ya que a menudo han sido acusados de hacer, sino mejorarlo.
Esa conclusión no debería ser impactante para cualquiera que sea consciente del intenso interés de China en la IA. También plantea preguntas sobre si seremos reflexivos sobre la exportación de todos nuestros datos personales y financieros a empresas chinas que no son responsables significativamente ante los reguladores de los Estados Unidos o la ley estadounidense.
La instalación de Manus en su computadora le da mucho acceso a su computadora: es difícil para mí descubrir los límites exactos en su acceso o la seguridad de su Sandbox cuando no puedo instalarlo yo mismo.
Una cosa que hemos aprendido en los debates de privacidad digital es que muchas personas harán esto sin pensar en las implicaciones si sienten que Manus les ofrece suficiente conveniencia. Y como la pelea de Tiktok dejó en claro, una vez que millones de estadounidenses aman una aplicación, el gobierno enfrentará una fuerte batalla cuesta arriba al tratar de restringirla u obligarlo a seguir las reglas de privacidad de los datos.
Pero también hay razones claras por las que Manus salió de una empresa china y no de, por ejemplo, meta, y son las mismas razones por las que podríamos preferir usar agentes de IA de Meta. Meta está sujeto a la ley de responsabilidad estadounidense. Si su agente comete un error y gasta todo su dinero en el alojamiento del sitio web, o si roba su bitcoin o carga sus fotos privadas, Meta probablemente será responsable. Por todas estas razones, Meta (y sus competidores estadounidenses) están siendo cautelosos en este ámbito.
Creo que la precaución es apropiada, incluso porque puede ser insuficiente. Construir agentes que actúan de forma independiente en Internet es un gran problema, uno que plantea grandes preguntas de seguridad, y me gustaría que tengamos un marco legal sólido sobre lo que pueden hacer y quién es en última instancia responsable.
Pero lo peor de todos los mundos posibles es un estado de incertidumbre que castiga la precaución y alienta a todos a administrar agentes que no tienen responsabilidad en absoluto. Tenemos uno o dos años para descubrir cómo hacerlo mejor. Esperemos que Manus nos impulse a trabajar no solo en la construcción de esos agentes, sino también en construir el marco legal que los mantendrá a salvo.
Una versión de esta historia apareció originalmente en el Futuro perfecto hoja informativa. ¡Regístrese aquí!
Noticias
Acabo de probar Manus vs Chatgpt con 5 indicaciones: aquí está el ganador
Published
9 horas agoon
14 marzo, 2025
Desde su lanzamiento la semana pasada, el agente de IA Manus ha ganado rápidamente tracción en línea. Desarrollado por la startup mariposa con sede en Wuhan, la comunidad de IA se ha dado cuenta, con más de 2 millones de personas en la lista de espera.
Al compararlo con Deepseek, Manus se distingue a sí mismo como lo que dice ser el primer agente general de IA del mundo, lo que lo distingue de los chatbots de IA tradicionales. En lugar de confiar en un solo modelo de lenguaje grande, como ChatGPT, Grok, Deepseek y otros sistemas de IA conversacionales, Manus opera con múltiples modelos de IA, incluidos el soneto Claude 3.5 de Anthrope y las versiones ajustadas de Alibaba’s Open-Source Qwen.
Noticias
Operai pide a Trump que elimine las restricciones a la industria de la IA
Published
12 horas agoon
13 marzo, 2025
Operai ha presentado una larga propuesta al gobierno de los Estados Unidos, con el objetivo de influir en su próximo plan de acción de IA, un informe de estrategia que muchos creen que guiará la política del presidente Donald Trump sobre la tecnología de inteligencia artificial.
La propuesta de la compañía de IA más reconocible de Estados Unidos es previsiblemente controvertida, y requiere que el gobierno de los Estados Unidos enfatice la velocidad del desarrollo sobre el escrutinio regulatorio, al tiempo que advierte los peligros que plantean las empresas de IA chinas para el país.
Trump pidió que el Plan de Acción de AI fuera redactado por la Oficina de Política de Ciencia y Tecnología y se sometió a él para julio poco después de asumir su segunda residencia en la Casa Blanca. Eso sucedió en enero, cuando expulsó una orden ejecutiva relacionada con la IA que fue firmada por su predecesor Joe Biden en octubre de 2023, reemplazándola con la suya, declarando que “es la política de los Estados Unidos para mantener y mejorar el dominio global de IA de Estados Unidos”.
Operai ha perdido poco tiempo al tratar de influir en las recomendaciones en ese plan, y en su propuesta dejó en claro sus sentimientos sobre el nivel actual de regulación en la industria de la IA. Pidió que los desarrolladores de IA recibieran “la libertad de innovar en el interés nacional”, y abogó por una “asociación voluntaria entre el gobierno federal y el sector privado”, en lugar de “leyes estatales demasiado pesadas”.
Argumenta que el gobierno federal debería poder trabajar con compañías de IA de manera “puramente voluntaria y opcional”, diciendo que esto ayudará a promover la innovación y la adopción de la tecnología. Además, pidió a los EE. UU. Que cree una “estrategia de control de exportación” que cubra los sistemas de IA fabricados en Estados Unidos, que promoverán la adopción global de su tecnología de IA de cosecha propia.
Impulso por la adopción del gobierno
La compañía argumenta además en sus recomendaciones que el gobierno otorga a las agencias federales una mayor libertad para “probar y experimentar” las tecnologías de IA que utilizan “datos reales”, y también solicitó a Trump que otorgue una exención temporal que negaría la necesidad de que los proveedores de IA estén certificados bajo el programa federal de gestión de riesgos y autorización. Pidió a Trump que “modernice” el proceso que las compañías de IA deben pasar para ser aprobadas para el uso del gobierno federal, pidiendo la creación de una “ruta más rápida basada en criterios para la aprobación de las herramientas de IA”.
Openai argumenta que sus recomendaciones harán posible que las agencias del gobierno federal utilicen los nuevos sistemas de IA hasta 12 meses más rápido de lo que es posible actualmente. Sin embargo, algunos expertos de la industria han expresado su preocupación de que la adopción tan rápida de la IA por parte del gobierno podría crear problemas de seguridad y privacidad.
Al presionar más, OpenAi también le dijo al gobierno de los Estados Unidos que debería asociarse más estrechamente con las empresas del sector privado para construir sistemas de IA para uso de seguridad nacional. Explicó que el gobierno podría beneficiarse de tener sus propios modelos de IA que están capacitados en conjuntos de datos clasificados, ya que estos podrían “ajustados para ser excepcionales en las tareas de seguridad nacional”.
Operai tiene un gran interés en abrir el sector del gobierno federal para productos y servicios de IA, después de haber lanzado una versión especializada de ChatGPT, llamada ChatGPT Gov, en enero. Está diseñado para ser dirigido por agencias gubernamentales en sus propios entornos informáticos seguros, donde tienen más control sobre la seguridad y la privacidad.
‘Libertad para aprender’
Además de promover el uso gubernamental de la IA, Operai también quiere que el gobierno de los Estados Unidos facilite su propia vida al implementar una “estrategia de derechos de autor que promueva la libertad de aprender”. Pidió a Trump que desarrollara regulaciones que preservarán la capacidad de los modelos de IA estadounidenses para aprender de los materiales con derechos de autor.
“Estados Unidos tiene tantas nuevas empresas de IA, atrae tanta inversión y ha hecho tantos avances de investigación en gran medida porque la doctrina de uso justo promueve el desarrollo de IA”, declaró la compañía.
Es una solicitud controvertida, porque la compañía actualmente está luchando contra múltiples organizaciones de noticias, músicos y autores sobre reclamos de infracción de derechos de autor. El ChatGPT original que se lanzó a fines de 2022 y los modelos más poderosos que se han lanzado desde entonces están en gran medida entrenados en Internet público, que es la principal fuente de su conocimiento.
Sin embargo, los críticos de la compañía dicen que básicamente está plagiando contenido de los sitios web de noticias, de los cuales muchos están paseados por pagos. Operai ha sido golpeado con demandas por el New York Times, el Chicago Tribune, el New York Daily News y el Centro de Informes de Investigación, la sala de redacción sin fines de lucro más antigua del país. Numerosos artistas y autores también han emprendido acciones legales contra la empresa.
Si no puedes vencerlos, ¿prohibirlos?
Las recomendaciones de Openai también apuntaron a algunos de los rivales de la compañía, en particular Deepseek Ltd., el laboratorio de IA chino que desarrolló el modelo Deepseek R-1 con una fracción del costo de cualquier cosa que Operai haya desarrollado.
La compañía describió a Deepseek como “subsidiado por el estado” y “controlado por el estado”, y le pidió al gobierno que considerara prohibir sus modelos y los de otras empresas chinas de IA.
En la propuesta, Openai afirmó que el modelo R1 de Deepseek es “inseguro”, porque la ley china requiere que cumpla con ciertas demandas con respecto a los datos del usuario. Al prohibir el uso de modelos de China y otros países de “nivel 1”, Estados Unidos podría minimizar el “riesgo de robo de IP” y otros peligros, dijo.
“Mientras Estados Unidos mantiene una ventaja en la IA hoy, Deepseek muestra que nuestro liderazgo no es ancho y está reduciendo”, dijo Openii.
Foto: TechCrunch/Flickr
Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido libre.
Un clic a continuación admite nuestra misión de proporcionar contenido gratuito, profundo y relevante.
Únete a nuestra comunidad en YouTube
Únase a la comunidad que incluye a más de 15,000 expertos en #Cubealumni, incluido el CEO de Amazon.com, Andy Jassy, el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger y muchos más luminarios y expertos.
GRACIAS
Related posts






















































































































































































































Trending
-
Startups10 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Tutoriales10 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Recursos10 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Recursos10 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Startups8 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Recursos10 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Startups10 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Estudiar IA10 meses ago
Curso de Inteligencia Artificial de UC Berkeley estratégico para negocios