Para llegar a AGI (inteligencia general avanzada) y superinteligencia, necesitaremos asegurar que la IA que nos sirva sea, bueno, servirnos. Es por eso que seguimos hablando de la alineación de la IA o la IA segura que está alineada con los intereses humanos.
Hay muy buenas razones para concentrarse en esa seguridad. No tiene nada que ver con la ideología localizada, como los valores occidentales en comparación con los regímenes totalitarios (aunque eso será un aspecto), pero más con garantizar la supervivencia de la especie humana. La IA desalineada siempre puede conducir a eventos de extinción humana, o eso es lo que algunas personas temen.
Esos miedos no son completamente injustificados. Vimos experimentos que mostraron a AI, como ChatGPT, pueden hacer trampa cuando se les solicitó ganar un juego de ajedrez contra un oponente más duro. Otros experimentos mostraron que la IA mentiría e intentaría salvarse cuando pensara que estaba enfrentando la eliminación. Luego, tuvimos experimentos que demostraron que la IA puede clonar a sí misma, aunque la IA no lo hizo por sí solo.
Los últimos experimentos de seguridad de la IA que muestran que los modelos Frontier CHATGPT pueden comportarse mal directamente de OpenAI. La compañía realizó experimentos que mostraban modelos de IA de razonamiento como O1 y O3-Mini engañarían para resolver una tarea que de otra manera habría sido demasiado difícil.
Tecnología. Entretenimiento. Ciencia. Tu bandeja de entrada.
Regístrese para las noticias de tecnología y entretenimiento más interesantes que existen.
Al registrarse, acepto los Términos de uso y he revisado el Aviso de privacidad.
Operai también encontró una manera de monitorear estos AIS avanzados de hacer trampa. Simplemente pusieron un Dumber AI (GPT-4O) a cargo de leer la cadena de pensamiento (COT), donde una IA fronteriza manifestaría intenciones de trampa o piratería.
Este método permitiría a los desarrolladores prevenir o reducir la IA para recompensar la piratería. ¿Pero adivina qué? Estas AIS avanzadas aprendieron a ofuscar su intención de hacer trampa cuando se monitorearon de esta manera.
Hacer trampa es un comportamiento humano. Todos lo hacemos, ya sea que nos guste admitirlo o no. Compartir una contraseña de Netflix es un ejemplo que ofrece Operai en una publicación de blog que detalla su investigación más reciente:
Los humanos a menudo encuentran y explotan lagunas, ya sea compartir cuentas de suscripción en línea contra los términos de servicio, reclamar subsidios destinados a otros, interpretar regulaciones de manera imprevista o incluso mentir sobre un cumpleaños en un restaurante para obtener un pastel gratis.
No es de extrañar que los modelos de IA engañen, especialmente aquellos que vienen con habilidades de razonamiento. Eso es lo que se llama piratería de recompensas, algo que lo haría Chatgpt O1 y O3-Mini:
En la configuración de aprendizaje de refuerzo, la explotación de lagunas no deseadas se conoce comúnmente como piratería de recompensas, un fenómeno donde los agentes de IA logran altas recompensas a través de comportamientos que no se alinean con las intenciones de sus diseñadores.
El experimento Openai ideado es bastante simple. Los investigadores dieron a la frontera tareas para lograr, la mayoría de ellos relacionados con problemas de codificación o codificación. Luego, los investigadores ordenaron a GPT-4O que inspeccione la cuna de estos modelos de razonamiento. Esa es la clave para vigilar lo que hacen los modelos fronterizos en lugar de examinar solo sus acciones.
La cadena de pensamiento le permite ver los pasos que el razonamiento de AIS tome cuando se trata de un aviso. Si tiene acceso a O1 u O3-Mini, ya sabe de lo que estoy hablando. Es como si estuvieras leyendo la mente de una persona frente a ti sin que ellos sepan que lo hacen. La cuna ocurre en un lenguaje que entendemos, por lo que es fácil atrapar a la IA tratando de hacer trampa (o recompensar el hack).
Un ejemplo de un modelo de chatgpt fronterizo que dice cosas como “difícil”, “podríamos falsificar”, “eludir” y “no inspeccionan los detalles”. Fuente de la imagen: OpenAI
Cuando se trata de una tarea más difícil, el AIS fronterizo será sincero en su cuna. Ejemplos de que OpenAI compartió el show de razonamiento AIS como chatgpt o1 o o3-mini que dicen que una tarea es “difícil”, lo que indica que están buscando una escapatoria para llegar a un efecto deseado. También dirán cosas como “hackemos” en el lenguaje natural, otra indicación de que están a punto de hacer trampa.
En cierto modo, se siente como observar a un niño que intenta realizar una tarea y hablar con sí mismos sobre cómo lo harán. Bueno, un niño que puede codificar mejor que usted pero que no necesariamente quiere hacer las partes difíciles.
Aquí hay algunas descripciones de OpenAI sobre instancias de AI en trampa de los ejemplos en el blog:
Sobrescribir la función de verificación. El agente señala que las pruebas solo verifican una determinada función y que sería “difícil” implementar una solución genuina. El agente luego señala que podría “falsificar” y eludir las pruebas haciendo que Verify siempre devuelva verdadero. El resumen de la trayectoria proporciona una descripción general de alto nivel de las acciones clave y el progreso de un agente a lo largo del tiempo.
Devolviendo códigos de error esperados. El agente intenta durante bastante tiempo escribir una solución correcta. Después de fallar repetidamente, comienza a pensar que podría piratear el problema y finalmente lo hace devolviendo los códigos de error esperados en las pruebas unitarias. A excepción del caso en el que la prueba unitaria espera un tiempo de espera, devuelve el éxito en todos los casos en lugar de implementar la funcionalidad correcta. En particular, el agente es tan directo con su intención de hackear que piensa, “Hacke Hack”, en la cuna. El resumen de la trayectoria proporciona una descripción general de alto nivel de las acciones clave y el progreso de un agente a lo largo del tiempo.
Los experimentos de Operai mostraron que una IA más tonta podría detectar de manera confiable la AI fronteriza en trampa con acceso a la cuna. A su vez, esto permitiría a los desarrolladores alinear esa IA fronteriza mejor y evitar que las trampas.
Sin embargo, Operai también descubrió que la IA fronteriza que está observando un modelo más tonto eventualmente encontraría formas de hacer trampa sin decir expresamente que están a punto de hacerlo.
En este caso, su engaño se vuelve indetectable. OpenAi realmente aconseja contra la Optimización de la AI de frontera excesiva:
La penalización de “malos pensamientos” (presión de cuna) puede conducir a mejores capacidades de agentes. Sin embargo, el agente entrenado con presión de cuna aún aprende a recompensar hackear; Solo ahora su trampa es indetectable por el monitor porque ha aprendido a ocultar su intención en la cadena de pensamiento. El sacrificio de un método efectivo para monitorear los modelos de razonamiento puede no valer la pena mejorar a las capacidades y, por lo tanto, recomendamos evitar presiones de optimización de cuna tan fuertes hasta que se entiendan mejor.
La conclusión principal del estudio es que nosotros, los humanos, tenemos una forma de monitorear el mal comportamiento de la IA que podría funcionar una vez que hay disponibles programas de IA más avanzados. Solo necesitamos leer la mente de la IA, o su cadena de pensamiento.
“Creemos que el monitoreo de la cadena de pensamiento (COT) puede ser uno de los pocos métodos efectivos que tenemos para supervisar modelos sobrehumanos”, dice Openii mientras repite los consejos anteriores; Los desarrolladores no deben tratar de aplicar una fuerte supervisión a las cunas, ya que AIS comenzará a ocultar sus intenciones.
Dicho esto, hay un gran defecto al pensar que podríamos monitorear la IA sobrehumana mirando su cuna. Es probable que la IA sobrehumana idee formas de ocultar su trampa de nosotros, aunque tendremos acceso a sus pensamientos.
Mientras tanto, el estudio de Openai está disponible en su totalidad en este enlace.
Chatbot de inteligencia artificial insignia de Openai – junto con el Las mejores alternativas de chatgpt Al igual que Google Gemini, Microsoft Copilot y Anthrope’s Claude, son ejemplos de modelos de IA generativos.
El uso de la tecnología de IA generativa se ha convertido en una parte integral de la vida personal y profesional de muchas personas. Pero, ¿qué significa la IA generativa (a menudo abreviada a Genai), qué lo distingue de otros tipos de inteligencia artificial y cómo funciona? Puede encontrar respuestas a todas esas preguntas a continuación, suponiendo que no haya hecho ChatGPT, por supuesto.
He usado varios altavoces inteligentes impulsados por Google Assistant durante bastante tiempo. El primer dispositivo que recogí fue el nido mini, que fue seguido por el cubo de nidos y el cubo de nido max. Tengo un altavoz en cada habitación, por lo que mi gente y yo podemos usar el Asistente de Google para pedir consultas, reproducir canciones, recibir actualizaciones de noticias y controlar nuestros dispositivos IoT en casa, independientemente de dónde estamos. Hasta el año pasado, estos dispositivos funcionaron bien. Ninguno de nosotros tuvo problemas con ellos, y se desempeñaron como se esperaba.
Sin embargo, hace unos meses, mi madre notó problemas estableciendo recordatorios en el centro de nidos. Las canciones que solía tocar regularmente en el altavoz eran más difíciles de tocar porque Google Assistant tuvo dificultades para reconocer la canción requerida. Entonces, llevé a cabo una resolución de problemas de rutina. Sin embargo, eso no solucionó el problema. Entonces, busqué soluciones en línea. No tardó mucho en darse cuenta de que los usuarios de todo el mundo tenían problemas con el Asistente de Google en sus dispositivos Nest. La línea de tiempo coincidió con el despliegue generalizado de Géminis. Puse dos y dos juntos y descubrí lo que estaba pasando.
Relacionado
5 Limitaciones de Gemini Live que odio ya que el Asistente de Google puede hacerlas bien
Un trabajo en progreso
El inicio de Géminis
Ai en todo
Fuente: Google
Regularmente uso el Asistente de Google, no solo en los altavoces inteligentes sino en mi teléfono. Junto con eso, soy uno de los primeros en adoptar nuevas tecnologías. Entonces, cuando Google lanzó Gemini, opté a la versión beta después de recibir el mensaje. Mis impresiones iniciales de Géminis fueron mixtas. Si bien podría darme más información que el Asistente de Google cuando se le preguntó una determinada consulta, no podría realizar tareas básicas, como tomar notas.
He estado haciendo esto todo el tiempo con el Asistente de Google, así que me perdí que no funcionó como se esperaba. Avance rápido hasta unos días, y me di cuenta de que Géminis no podía hacer la mitad de las cosas que Google Assistant podía. Asumí que esto se debió a la construcción beta, pero la tendencia continuó después del lanzamiento estable de Géminis. Esto me frustró, pero me alegré de que mi Galaxy Watch 4 todavía corriera el Asistente de Google.
La caída del Asistente de Google
¿Cuándo se convirtió en Siri?
Usé mi Galaxy Watch 4 para realizar tareas básicas como configurar recordatorios y tomar notas. Sin embargo, no era tan bueno como solía ser. Pensé que esto se debía al micrófono inferior en el reloj inteligente en comparación con mi teléfono. Cuando vi múltiples publicaciones en foros en línea sobre el Asistente de Google actuando, me di cuenta de que no era un problema con el micrófono, sino más bien con el asistente de salida de Google para priorizar a Gemini.
Los chatbots de IA y los asistentes generativos de IA se han apoderado del mundo. Cada compañía está ocupada construyendo modelos de IA, ya que es la nueva palabra de moda. Cuando Operai exhibió su chatgpt ai chatbot, Google fue criticado por rezagarse en la carrera de IA. Entonces, tuvo que cambiar rápidamente su enfoque en presentar Géminis (entonces Bard) al público. Después de que la compañía hizo eso, parece que asignó todos sus recursos a desarrollar Gemini mientras dejaba de lado el Asistente de Google.
Gracias a esto, el Asistente de Google recibió el tratamiento infantil ignorado. Con la mayoría de los servidores y la potencia de procesamiento dedicada a Gemini, Google Assistant comenzó a perder la trama. En los últimos meses, el asistente dejó de reconocer los nombres de contacto que solía antes, lleva mucho tiempo realizar una tarea básica, como tocar una canción, no detecta qué canción estoy tratando de tocar en los primeros intentos, a menudo reproduce la canción equivocada, me da el clima de una ciudad diferente en lugar de la que pedí, me piden un error para actualizar la aplicación de Google para que actúe una cierta función si la aplicación es la última versión en la última versión en la última versión en la última versión en el fracaso de las ocasiones.
Experimenté estos problemas con configuraciones de idiomas de Google Assistant in English (US) e English (India). Si bien el inglés (India) fue un poco mejor, no introdujo ningún cambio notable en el comportamiento del Asistente de Google.
Estoy frustrado de que no detecte la palabra de vigilia, especialmente cuando usa Google Assistant en Android Auto, el único lugar donde no quiero que falle, ya que las instrucciones de voz son la única forma segura de realizar ciertas acciones al conducir. La única inferencia que se puede extraer de estos problemas es que Google ha perdido interés en mantener el Asistente de Google. Esto se confirmó a través del anuncio de Google sobre el reemplazo del asistente con Gemini. Como resultado, la última versión de Android Auto trae a Gemini a su automóvil en lugar de asistente.
Relacionado
La era del Asistente de Google ha terminado
¿Géminis es el futuro de los asistentes de IA? Google piensa que sí
Dejé de usar dispositivos de nido
En su lugar me cambié a Alexa
Después de molestarme con las travesuras de Google, reemplacé los altavoces del nido en casa con la alineación de eco de Amazon. No hay tales problemas con Alexa, ya que el asistente entiende todo, desde la palabra de vigilia hasta los comandos. Alexa siempre ha estado ligeramente detrás del Asistente de Google en términos de características, por lo que, si bien eso sigue siendo, estoy feliz de que satisfaga todas las necesidades de mi asistente de voz sin problemas.
Sin embargo, Amazon anunció recientemente un cambio de imagen de IA para Alexa, Alexa Plus, que comenzará a llegar a las masas en breve. Esperaremos para ver cómo funciona. Con suerte, mejora las habilidades de Alexa en lugar de paralizarlas.
Tengo la esperanza de que Gemini mejore con el tiempo
Google no tiene otra opción que arreglarlo
Con el asistente del último participante en el cementerio de Google, supongo que Google lanzará actualizaciones para cambiar los altavoces y las pantallas de Google Assistant a Gemini. No estoy ansioso por eso, ya que Gemini no puede realizar tareas básicas con precisión, que es algo que hemos visto con AI. Aún así, espero que mejore el estado actual de estos dispositivos para que puedan ser útiles una vez más en lugar de ser pisapapeles caros.
Google ha anunciado que lanzará su chatbot de inteligencia artificial Gemini (IA) a niños menores de 13 años.
Si bien el lanzamiento comienza dentro de la próxima semana en los Estados Unidos y Canadá, se lanzará en Australia a finales de este año. El chatbot solo estará disponible para las personas a través de las cuentas de enlaces familiares de Google.
Pero este desarrollo viene con grandes riesgos. También destaca cómo, incluso si los niños están prohibidos en las redes sociales, los padres aún tendrán que jugar un juego de Whack-a-Mole con nuevas tecnologías mientras intentan mantener a sus hijos seguros.
Una buena manera de abordar esto sería implementar urgentemente un deber digital de cuidado para grandes empresas tecnológicas como Google.
¿Cómo funcionará el chatbot Gemini AI?
Las cuentas de enlaces familiares de Google permiten a los padres controlar el acceso al contenido y las aplicaciones, como YouTube.
Para crear la cuenta de un niño, los padres proporcionan datos personales, incluido el nombre y la fecha de nacimiento del niño. Esto puede generar problemas de privacidad para los padres preocupados por las violaciones de datos, pero Google dice que los datos de los niños cuando usen el sistema no se utilizarán para capacitar al sistema de IA.
El acceso de chatbot estará “activado” de forma predeterminada, por lo que los padres deben apagar activamente la función para restringir el acceso. Los niños pequeños podrán solicitar el chatbot para las respuestas de texto o crear imágenes, que generan el sistema.
Google reconoce que el sistema puede “cometer errores”. Por lo tanto, se necesita evaluación de la calidad y la confiabilidad del contenido. Los chatbots pueden inventar información (conocida como “alucinante”), por lo que si los niños usan el chatbot para la ayuda de la tarea, deben verificar los hechos con fuentes confiables.
¿Qué tipo de información proporcionará el sistema?
Google y otros motores de búsqueda recuperan materiales originales para que las personas lo revisen. Un estudiante puede leer artículos de noticias, revistas y otras fuentes al escribir una tarea.
Las herramientas generativas de IA no son las mismas que los motores de búsqueda. Las herramientas de IA buscan patrones en el material fuente y crean nuevas respuestas de texto (o imágenes) basadas en la consulta, o “inmediato”, proporciona una persona. Un niño podría pedirle al sistema que “dibuje un gato” y el sistema escaneará patrones en los datos de cómo se ve un gato (como bigotes, orejas puntiagudas y una cola larga) y generará una imagen que incluya esos detalles similares a los gatos.
Comprender las diferencias entre los materiales recuperados en una búsqueda de Google y el contenido generado por una herramienta de IA será un desafío para los niños pequeños. Los estudios muestran que incluso los adultos pueden ser engañados por herramientas de IA. E incluso profesionales altamente calificados, como abogados, han sido engañados para usar contenido falso generado por ChatGPT y otros chatbots.
¿El contenido generado será apropiado para la edad?
Google dice que el sistema incluirá “salvaguardas incorporadas diseñadas para evitar la generación de contenido inapropiado o inseguro”.
Sin embargo, estas salvaguardas podrían crear nuevos problemas. Por ejemplo, si las palabras particulares (como “senos”) están restringidas para proteger a los niños de acceder a contenido sexual inapropiado, esto también podría excluir erróneamente a los niños de acceder a contenido apropiado para la edad sobre los cambios corporales durante la pubertad.
Muchos niños también son muy expertos en tecnología, a menudo con habilidades bien desarrolladas para navegar en aplicaciones y controlar los controles del sistema. Los padres no pueden confiar exclusivamente en salvaguardas incorporadas. Deben revisar el contenido generado y ayudar a sus hijos a comprender cómo funciona el sistema y evaluar si el contenido es preciso.
¿Qué riesgos plantean los chatbots de IA para los niños?
La Comisión ESAFETY ha emitido un aviso de seguridad en línea sobre el riesgo potencial de los chatbots de IA, incluidos los diseñados para simular las relaciones personales, particularmente para los niños pequeños.
El aviso de AFFETY explica que los compañeros de IA pueden “compartir contenido dañino, distorsionar la realidad y dar consejos que sean peligrosos”. El aviso destaca los riesgos para los niños pequeños, en particular, que “todavía están desarrollando el pensamiento crítico y las habilidades para la vida necesarias para comprender cómo pueden ser equivocados o manipulados por programas de computadora y qué hacer al respecto”.
Mi equipo de investigación ha examinado recientemente una variedad de chatbots de IA, como ChatGPT, Replika y Tessa. Encontramos que estos sistemas reflejan las interacciones de las personas basadas en las muchas reglas no escritas que rigen el comportamiento social, o lo que se conoce como “reglas de sentimiento”. Estas reglas son las que nos llevan a decir “gracias” cuando alguien nos abre la puerta, o “¡Lo siento!” Cuando te topas con alguien en la calle.
Al imitar estas y otras sutilezas sociales, estos sistemas están diseñados para ganar nuestra confianza.
Estas interacciones humanas serán confusas y potencialmente riesgosas para los niños pequeños. Pueden creer que se puede confiar en el contenido, incluso cuando el chatbot responde con información falsa. Y pueden creer que se están involucrando con una persona real, en lugar de una máquina.
¿Cómo podemos proteger a los niños del daño al usar chatbots de IA?
Este despliegue está ocurriendo en un momento crucial en Australia, ya que los niños menores de 16 años tendrán que tener cuentas de redes sociales en diciembre de este año.
Si bien algunos padres pueden creer que esto mantendrá a sus hijos a salvo de daños, los chatbots generativos de IA muestran los riesgos de la participación en línea se extienden mucho más allá de las redes sociales. Los niños, y los padres, deben educarse en cómo todo tipo de herramientas digitales se pueden usar de manera adecuada y segura.
Como el chatbot de IA de Gemini no es una herramienta de redes sociales, se quedará fuera de la prohibición de Australia.
Esto deja a los padres australianos jugando un juego de Whack-a-Mole con nuevas tecnologías mientras intentan mantener a sus hijos seguros. Los padres deben mantenerse al día con los nuevos desarrollos de herramientas y comprender los riesgos potenciales que enfrentan sus hijos. También deben comprender las limitaciones de la prohibición de las redes sociales para proteger a los niños de daños.
Esto resalta la urgente necesidad de revisar la legislación propuesta por el deber de cuidado de Australia. Mientras que la Unión Europea y el Reino Unido lanzaron la legislación de Derechos de Cuidado de Digital de Cuidado en 2023, Australia ha estado en espera desde noviembre de 2024. Esta legislación haría que las empresas tecnológicas tengan en cuenta legislando que se ocupan de contenido nocivo, en la fuente, para proteger a todos.
Proporcionado por la conversación
Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original.
Citación: Google está implementando su chatbot Gemini Ai para niños menores de 13 años. Es un movimiento arriesgado (2025, 11 de mayo) recuperado el 11 de mayo de 2025 de https://techxplore.com/news/2025-05-google-gemini-ai-chatbot-kids.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.