Connect with us

Noticias

Cuando Google no habla, pregúntele a su IA: Gemini da pistas sobre el futuro de Chrome

Published

on

En sábado, La información Se publicó la historia de que Google planea lanzar una IA lista para Chrome que cualquier usuario puede elegir cargar en su escritorio a partir de diciembre.

La iniciativa lleva el nombre en código Proyecto Jarvis, en honor a la inteligencia artificial general ficticia que el multimillonario Tony Stark creó en la franquicia de superhéroes de Marvel, y el modelo de IA de escritorio supuestamente coincidiría con el debut de Google de su próxima generación de Gemini 2.0.

Aquí está la publicación en la plataforma de redes sociales X, antes conocida como Twitter, una vez que la historia se publicó durante el fin de semana.

El artículo afirma que Jarvis AI sería compatible con la actual extensión de Chrome de Google, lo que permitiría que el modelo de IA interactúe con un navegador web y una interfaz de computadora. El sistema sería capaz de automatizar funciones y tareas basadas en la web que el usuario le asignaría tomando capturas de pantalla y analizando las imágenes frente a consultas rápidas.

Según la historia, cualquiera que lleve a Jarvis a una prueba también tendría que confiar en él (y en Google) a pesar de los posibles riesgos de IA con su información personal. Esa información podría incluir compartir con Jarvis detalles de tarjetas de crédito, identificadores confidenciales y contraseñas para permitir que el agente de IA complete sus tareas digitales a través de Internet, como arreglos de viajes, investigaciones y compras.

Anthropic lanzó un sistema algo similar el martes pasado que se descargaría en la computadora personal del usuario. Según se informa, su versión Claude seguiría una indicación del usuario y buscaría entre los diversos archivos de computadora del usuario y abriría pantallas como un cerdo en busca de trufas para cumplir con la solicitud de consulta.

El propósito del proyecto Claude era más bien un modelo de entrenamiento para que la IA pudiera aprender habilidades de navegación por computadora, búsquedas de archivos pequeños y completar tareas administrativas. Mientras que Jarvis AI parece más bien un conserje computarizado de mayor funcionamiento, pero eso es una completa especulación hasta que la compañía lo confirme oficialmente.

Google no quiso comentar sobre el artículo

Desafortunadamente, durante una conversación telefónica con un portavoz de Google, no hicieron comentarios sobre ninguno de los detalles detallados en La información artículo.

Lo único que indicaron fue que, según la historia de Google en el espacio, no es sorprendente que la compañía esté trabajando en capacidades de inteligencia artificial para ayudar a sus usuarios.

Esa no es una “noticia de última hora”, ya que el CEO de Google, Sundar Pichai, fue mucho más allá durante la conferencia de desarrolladores de la compañía en marzo, sugiriendo la posibilidad de que Gemini AI devuelva de forma autónoma una compra de zapatos en su nombre en algún momento en el futuro.

La IA Gemini de Google establece una alta probabilidad para una nueva IA de Chrome

Entonces, si la compañía no comenta sobre la información filtrada sobre una posible nueva versión de Google Gemini y una versión de Chrome habilitada para IA, el siguiente mejor lugar para obtener información es la versión actual de Google Gemini. Aquí está el mensaje que le di a Gemini junto con el artículo completo de La información:

“Como IA creada por Google, lea el artículo de noticias integrado que se publicó ayer por The Information sobre una posible nueva IA descargable para los usuarios [sic] escritorios de computadora como una forma de entrenar la IA con respecto al uso de la computadora y las habilidades de navegación. Una vez que haya leído el artículo, basándose en su formación sobre Google, ¿cuál diría que es el porcentaje de probabilidad del 100 % de que el artículo publicado sea exacto, sabiendo que todavía es especulativo?

A partir de ese mensaje, aquí hay una captura de pantalla de la respuesta de Google Gemini, que está resaltada para mayor claridad.

Después de revisar el artículo y la propia capacitación de su empresa creadora, Google Gemini AI proporcionó una sorprendente probabilidad del 85% de que el artículo fuente pudiera ser cierto.

Vale la pena señalar que Gemini confirmó que no tenía conocimiento previo del Proyecto Jarvis de Google ni de ningún proyecto similar con un nombre en clave diferente, hasta que subí el artículo.

Google Gemini cree que su homónimo innovará

La discusión continuó con un resumen de las principales estrategias de lanzamiento de productos que utilizan las empresas al introducir nuevos productos en un mercado. Las cuatro estrategias principales son:

  1. Lanzamiento preventivo (Innovador): Lanzar temprano un producto, a menudo con características innovadoras, para establecer el estándar del mercado antes de que entren los competidores.
  2. Lanzamiento imitativo (Seguidor rápido): Introducir rápidamente un producto similar después de observar el éxito de un competidor, capitalizando la demanda existente.
  3. Lanzamiento simultáneo (Proveedor alternativo): Ingresar a múltiples mercados o canales al mismo tiempo con un producto que ofrece una opción diferente a la de los competidores existentes.
  4. Lanzamiento secuencial (Rezagado): Lanzar gradualmente un producto a lo largo del tiempo, normalmente después de que los competidores ya hayan establecido su presencia, para reducir los riesgos y optimizar el rendimiento en función de la retroalimentación del mercado.

Una vez establecidas estas definiciones, le hice a Géminis la siguiente pregunta:

“Con respecto a la idea de lanzar una IA a las computadoras de escritorio para capacitar en habilidades informáticas, ¿qué estrategia es más probable que Google implemente hipotéticamente?”

Y aquí hay una captura de pantalla de la respuesta de Gemini.

El cambio parece ser la única constante en Google

Si bien no hay nada seguro sobre el Proyecto Jarvis o su calendario, una cosa sí es segura y es la cantidad de cambios y competencia que enfrenta la organización.

Google ha tenido dificultades para seguir el ritmo de la constante oleada de implementaciones de IA generativa de OpenAI y Anthropic. También tiene que contrarrestar el uso creciente del modelo privado de inteligencia artificial generativa, Perplexity, para búsquedas en Internet, en el que Google fue pionero. El viernes, el cofundador de Perplexity publicó en X que su plataforma de búsqueda de inteligencia artificial ahora maneja 100 millones de consultas por semana.

La empresa matriz de Google, Alphabet, también está apelando una demanda antimonopolio en la que el Departamento de Justicia propuso disolver la empresa como parte de la siguiente etapa del litigio.

Con este constante estado de cambio como telón de fondo, Google trasladó su unidad de aplicaciones Gemini a su laboratorio de investigación DeepMind a mediados de octubre. La compañía posicionó la consolidación como una forma de racionalizar y operacionalizar mejor sus iniciativas de inteligencia artificial frente a una competencia cada vez mayor.

La máquina de inteligencia artificial de Google era más habladora que su máquina de relaciones públicas

La IA tiene sus desafíos y la IA generativa en particular todavía lucha con sus problemas relacionados con conjuntos de datos sintéticos, sesgos inherentes, alucinaciones, colapso de modelos y más. Las interacciones con Google Gemini para este artículo en busca de algunos comentarios irónicos y no oficiales cuando la compañía se negó fueron casi una broma.

Casi.

Si lo piensas bien, las empresas que crean estas IA gastan miles de millones de dólares en crear, entrenar y actualizar estos grandes modelos de lenguaje. Se toman muy en serio estos modelos. Google se toma muy en serio a Géminis.

Es seguro asumir que Google quiere producir el LLM más confiable y líder del mercado, al igual que todos sus competidores.

Pero este artículo demuestra que cuando esas empresas no quieren hablar públicamente con los medios o con cualquier parte interesada externa, la IA generativa lo hará.

Incluso si la IA no actúa como portavoz autorizado de la organización, un mensaje sólido puede producir algunas ideas interesantes del LLM de una empresa, lo suficientemente interesantes como para revelarlas y compartirlas en un artículo.

Puede que no estés de acuerdo, pero Google Gemini AI, que ofrece una evaluación de confianza del 85% de que un modelo AI Chrome probablemente sea legítimo, es mucho más interesante que “sin comentarios” por parte de la empresa. Si bien una empresa puede descartar los comentarios de su IA como “no oficiales”, debe tener cuidado de no ir demasiado lejos desacreditando su creación porque entonces estaría socavando la credibilidad y los cimientos de su futuro, sin mencionar los costos de capital irrecuperable, tiempo, programación y mano de obra.

Otra consideración que vale la pena señalar es que la mayoría de las corporaciones tienen políticas muy estrictas que prohíben cualquier que un empleado no autorizado hable con los medios de comunicación, analistas o inversores de la industria o financieros, y por buenas razones (por ejemplo, divulgaciones ante la SEC, cuestiones de propiedad intelectual, prácticas comerciales confidenciales, posible responsabilidad ante el empleado… etc.). Ahora parece que esas reglas no se aplican y no se pueden aplicar al modelo de IA de la empresa.

Esta situación plantea preguntas importantes que antes no existían:

  • ¿Podría esto convertirse en una nueva técnica de investigación para los periodistas tecnológicos?
  • ¿Qué significa que la IA de una empresa esté dispuesta a especular sobre los planes de la empresa o los rumores del mercado?
  • ¿Cómo podría esto cambiar la dinámica entre las empresas de tecnología, sus IA y los medios de comunicación?

El ritmo de cambio y aceleración dentro del espacio de la IA sólo está acelerando el ritmo. Empresas como Google, Anthropic, OpenAI, Apple, Amazon y todas las demás se están moviendo tan rápido que, sin duda, se descubrirán consecuencias no deseadas, que serán irreversibles. Es muy parecido a la IA de una empresa que habla en público cuando la empresa prefiere no hacerlo.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Investigadores chinos presentan LLaVA-o1 para desafiar el modelo o1 de OpenAI

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


El modelo o1 de OpenAI ha demostrado que el escalado del tiempo de inferencia (usar más computación durante la inferencia) puede mejorar significativamente las capacidades de razonamiento de un modelo de lenguaje. LLaVA-o1, un nuevo modelo desarrollado por investigadores de varias universidades de China, lleva este paradigma a los modelos de lenguaje de visión (VLM) de código abierto.

Los primeros VLM de código abierto suelen utilizar un enfoque de predicción directa, generando respuestas sin razonar sobre el mensaje y los pasos necesarios para resolverlo. Sin un proceso de razonamiento estructurado, son menos eficaces en tareas que requieren razonamiento lógico. Las técnicas de estimulación avanzadas, como las de cadena de pensamiento (CoT), donde se anima al modelo a generar pasos de razonamiento intermedios, producen algunas mejoras marginales. Pero los VLM suelen producir errores o alucinar.

Los investigadores observaron que un problema clave es que el proceso de razonamiento en los VLM existentes no es suficientemente sistemático y estructurado. Los modelos no generan cadenas de razonamiento y muchas veces se quedan estancados en procesos de razonamiento donde no saben en qué etapa se encuentran y qué problema específico deben resolver.

“Observamos que los VLM a menudo inician respuestas sin organizar adecuadamente el problema y la información disponible”, escriben los investigadores. “Además, con frecuencia se desvían de un razonamiento lógico para llegar a conclusiones, en lugar de presentar una conclusión prematuramente y luego intentar justificarla. Dado que los modelos de lenguaje generan respuestas token por token, una vez que se introduce una conclusión errónea, el modelo generalmente continúa por un camino de razonamiento defectuoso”.

Razonamiento de varias etapas

OpenAI o1 utiliza escala de tiempo de inferencia para resolver el problema de razonamiento sistemático y estructurado y permite que el modelo haga una pausa y revise sus resultados a medida que resuelve gradualmente el problema. Si bien OpenAI no ha publicado muchos detalles sobre el mecanismo subyacente de o1, sus resultados muestran direcciones prometedoras para mejorar las capacidades de razonamiento de los modelos fundamentales.

Inspirándose en o1, los investigadores diseñaron LLaVA-o1 para realizar un razonamiento etapa por etapa. En lugar de generar una cadena de razonamiento directa, LLaVA-o1 divide el proceso de razonamiento en cuatro etapas distintas:

Resumen: El modelo primero proporciona un resumen de alto nivel de la pregunta, delineando el problema central que debe abordar.

Subtítulo: Si hay una imagen presente, el modelo describe las partes relevantes, centrándose en elementos relacionados con la pregunta.

Razonamiento: A partir del resumen, el modelo realiza un razonamiento lógico y estructurado para derivar una respuesta preliminar.

Conclusión: Finalmente, el modelo presenta un resumen conciso de la respuesta basada en el razonamiento anterior.

Sólo la etapa de conclusión es visible para el usuario; las otras tres etapas representan el proceso de razonamiento interno del modelo, similar al rastro de razonamiento oculto de o1. Este enfoque estructurado permite a LLaVA-o1 gestionar su proceso de razonamiento de forma independiente, lo que conduce a un mejor rendimiento en tareas complejas.

“Este enfoque estructurado permite al modelo gestionar de forma independiente su proceso de razonamiento, mejorando su adaptabilidad y rendimiento en tareas de razonamiento complejas”, escriben los investigadores.

Búsqueda de haz a nivel de etapa (derecha) versus otras técnicas de escalamiento de tiempo de inferencia Fuente: arXiv

LLaVA-o1 también introduce una novedosa técnica de escalado de tiempo de inferencia llamada “búsqueda de haz a nivel de etapa”. La búsqueda de haces a nivel de etapa genera múltiples resultados candidatos en cada etapa de razonamiento. Luego selecciona al mejor candidato en cada etapa para continuar el proceso de generación. Esto contrasta con el enfoque clásico del mejor de N, en el que se solicita al modelo que genere múltiples respuestas completas antes de seleccionar una.

“En particular, es el diseño de salida estructurado de LLaVA-o1 lo que hace que este enfoque sea factible, permitiendo una verificación eficiente y precisa en cada etapa”, escriben los investigadores. “Esto valida la eficacia de la producción estructurada para mejorar la escala de tiempo de inferencia”.

Entrenamiento LLaVA-o1

Datos de entrenamiento de Llama o1
Los datos de entrenamiento de LLaVA-o1 están anotados con GPT-4o Fuente: arXiv

Para entrenar LLaVA-o1, los investigadores compilaron un nuevo conjunto de datos de alrededor de 100.000 pares de imagen-pregunta-respuesta obtenidos de varios conjuntos de datos VQA ampliamente utilizados. El conjunto de datos cubre una variedad de tareas, desde la respuesta a preguntas de varios turnos hasta la interpretación de gráficos y el razonamiento geométrico.

Los investigadores utilizaron GPT-4o para generar procesos de razonamiento detallados de cuatro etapas para cada ejemplo, incluidas las etapas de resumen, título, razonamiento y conclusión.

Luego, los investigadores ajustaron Llama-3.2-11B-Vision-Instruct en este conjunto de datos para obtener el modelo LLaVA-o1 final. Los investigadores no han publicado el modelo, pero planean publicar el conjunto de datos, llamado LLaVA-o1-100k.

LLaVA-o1 en acción

Los investigadores evaluaron LLaVA-o1 en varios puntos de referencia de razonamiento multimodal. A pesar de haber sido entrenado en solo 100.000 ejemplos, LLaVA-o1 mostró mejoras de rendimiento significativas con respecto al modelo Llama base, con un aumento promedio en la puntuación de referencia del 6,9%.

Resultados LLaVA-o1
LLaVA-o1 frente a otros modelos abiertos y cerrados Fuente: arXiv

Además, la búsqueda de haces a nivel de etapa generó mejoras adicionales en el rendimiento, lo que demuestra la eficacia del escalamiento del tiempo de inferencia. Debido a limitaciones de recursos computacionales, los investigadores solo pudieron probar la técnica con un tamaño de haz de 2. Esperan mejoras aún mayores con tamaños de haz más grandes.

Sorprendentemente, LLaVA-o1 superó no sólo a otros modelos de código abierto del mismo tamaño o más grandes, sino también a algunos modelos de código cerrado como GPT-4-o-mini y Gemini 1.5 Pro.

“LLaVA-o1 establece un nuevo estándar para el razonamiento multimodal en VLM, ofreciendo un rendimiento sólido y escalabilidad, especialmente en tiempo de inferencia”, escriben los investigadores. “Nuestro trabajo allana el camino para futuras investigaciones sobre el razonamiento estructurado en VLM, incluidas posibles expansiones con verificadores externos y el uso del aprendizaje por refuerzo para mejorar aún más las capacidades complejas de razonamiento multimodal”.

Continue Reading

Noticias

Tribunales bonaerenses adoptan ChatGPT para redactar sentencias

Published

on

En mayo, el Ministerio Público de la Ciudad de Buenos Aires comenzó a utilizar IA generativa para predecir fallos en algunos casos de empleo público relacionados con demandas salariales.

Desde entonces, los funcionarios de justicia de la oficina de lo contencioso administrativo y tributario de la ciudad de Buenos Aires suben los documentos del caso al ChatGPT, que analiza patrones, ofrece una clasificación preliminar a partir de un catálogo de plantillas y redacta una decisión. Hasta ahora, ChatGPT se ha utilizado en 20 sentencias legales.

Según estudios recientes realizados por la oficina, el uso de IA generativa ha reducido el tiempo que lleva redactar una oración de una hora a aproximadamente 10 minutos.

“Nosotros, como profesionales, ya no somos los personajes principales. Nos hemos convertido en editores”, dijo Juan Corvalán, fiscal general adjunto en lo contencioso administrativo y tributario. Resto del mundo.

La introducción de herramientas de IA generativa ha mejorado la eficiencia en la oficina, pero también ha generado preocupaciones dentro del poder judicial y entre expertos legales independientes sobre posibles sesgos, el tratamiento de datos personales y la aparición de alucinaciones. Preocupaciones similares han resonado más allá de las fronteras de Argentina.

“Nosotros, como profesionales, ya no somos los personajes principales. Nos hemos convertido en editores”.

“Cualquier uso inconsistente, como compartir información sensible, podría tener un costo legal considerable”, dijo Lucas Barreiro, abogado especializado en protección de datos personales y miembro de Privaia, asociación civil dedicada a la defensa de los derechos humanos en la era digital. dijo Resto del mundo.

Los jueces de EE. UU. han expresado su escepticismo sobre el uso de la IA generativa en los tribunales, y el juez federal de Manhattan, Edgardo Ramos, dijo a principios de este año que “Se ha demostrado que ChatGPT es un recurso poco confiable”. En Colombia y los Países Bajos, el uso de ChatGPT por parte de los jueces fue criticado por expertos locales. Pero no todo el mundo está preocupado: un juez de un tribunal de apelaciones del Reino Unido que utilizó ChatGPT para redactar parte de una sentencia dijo que era “muy útil”.

Para Corvalán, el paso a la IA generativa es la culminación de una transformación de años dentro de la Fiscalía General de la Ciudad de Buenos Aires. En 2017, Corvalán reunió a un grupo de desarrolladores para entrenar un sistema impulsado por inteligencia artificial llamado PROMETEA, cuyo objetivo era automatizar tareas judiciales y acelerar los procedimientos de los casos. El equipo utilizó más de 300.000 fallos y expedientes de casos relacionados con protección de vivienda, bonificaciones de empleo público, ejecución de multas impagas y denegación de licencias de taxi a personas con antecedentes penales.

Los casos en los que se utilizaba no variaban mucho y las resoluciones tendían a estandarizarse. Aún se requería que el personal legal revisara las decisiones del programa. En poco tiempo, la productividad en la oficina aumentó casi un 300%, y los profesionales jurídicos podían procesar alrededor de 490 casos por mes, frente a unos 130.

“Nunca tuvo la intención de reemplazar a los humanos. Siempre hay supervisión. Más bien, es una forma de repensar nuestros trabajos”, afirmó Corvalán.

PROMETEA podría predecir resultados con un 90% de precisión en menos de 20 segundos, según un informe de la fiscalía de la ciudad. La implementación de PROMETEA fue un punto de inflexión, dijo Melisa Rabán, secretaria de la procuraduría general adjunta para asuntos contenciosos administrativos y tributarios.

“Llegaron casos más complejos y pudimos trabajar en ellos adecuadamente en lugar de realizar trabajos automatizables”, dijo Rabán Resto del mundo.

Pero la eficiencia del programa tuvo un costo: cada nueva categoría de delito para la que se implementó PROMETEA requirió capacitación adicional y desarrollo de algoritmos. A principios de este año, Corvalán comenzó a eliminar PROMETEA en favor de ChatGPT. Las 20 sentencias que ha redactado han sido revisadas por un abogado y aprobadas por el fiscal adjunto. El poder judicial ahora está ampliando el programa a otras unidades, incluida la oficina de adquisiciones, que gestiona las quejas de los ciudadanos.

“Este proyecto trata de democratizar la IA generativa”, dijo Sofia Tammaro, empleada de la fiscalía general adjunta y desarrolladora principal del proyecto. Resto del mundo. En Argentina, que se ha quedado atrás del mundo desarrollado en el acceso a avances tecnológicos de vanguardia, eso no es poca cosa.

“Cualquier uso inconsistente, como compartir información confidencial, podría tener un costo legal considerable”.

A los expertos les preocupa que muchos usuarios no tengan la capacitación y la alfabetización digital necesarias para implementar la tecnología que cambia rápidamente, lo que podría generar prejuicios contra las comunidades subrepresentadas, entre otras cuestiones.

“Si bien algunos pueden mitigarse, otros surgirán, porque en el corazón mismo de los desarrolladores hay valoraciones subjetivas que permean el diseño del modelo”, afirmó Barreiro.

El equipo de Corvalán está tratando de frenar algunos de los riesgos asociados con los modelos de IA, incluida la prevalencia del robo y la piratería de datos. “Todavía estamos trabajando en un proceso de anonimización de los datos confidenciales encontrados en los casos”, dijo Tammaro.

Las alucinaciones también podrían plantear importantes riesgos legales. Los casos en los que los sistemas de IA generan información falsa o irrelevante ocurren alrededor del 17% de las veces en herramientas legales de generación de IA, según un estudio de Stanford de 2024. Para Corvalán, estos sólo pueden mitigarse mediante el uso de programas que tengan un menor margen de error, como PROMETEA, para casos sensibles, incluidos los relacionados con la violencia de género y doméstica.

“PROMETEA está integrada en nuestros procesos. Su huella nunca desaparecerá”, dijo Roberto Betancur, director de TI y modernización del Ministerio Público de Buenos Aires. Resto del mundo. “Nos dio una guía para entender cómo se toman las decisiones legales”.

Por ahora, PROMETEA se utiliza para fallos relacionados con el empleo público y para gestionar investigaciones que involucren material de abuso sexual infantil. Es probable que su uso disminuya con el tiempo.

“PROMETEA es como Blockbuster en un mundo donde Netflix está surgiendo. Estas transformaciones están sucediendo a escala global”, afirmó Corvalán.

Continue Reading

Noticias

ChatGPT vs Gemini vs Meta AI: tiroteo del generador de imágenes de IA de Acción de Gracias

Published

on

Con el espíritu del Día de Acción de Gracias, puse a prueba tres generadores de imágenes de IA líderes (ChatGPT, Google Gemini y Meta AI) solicitándoles que crearan imágenes de siete platos clásicos del Día de Acción de Gracias. El objetivo era evaluar la capacidad de cada modelo de IA para representar estos alimentos tradicionales con realismo y atractivo.

Si bien ninguno de los alimentos que preparé en este experimento era realmente comestible, algunas de las imágenes generadas por IA parecían lo suficientemente buenas para comer, mientras que otras definitivamente tuvieron un pase difícil. Los resultados no solo mostraron las fortalezas y debilidades de cada plataforma, sino que también me brindaron una apreciación más profunda de las comidas clásicas de Acción de Gracias y de quienes dedican tiempo a cocinarlas.

Profundicemos en este festín para los ojos y veamos qué inventaron estos chatbots en sus intentos de capturar las esencias de la cena de Acción de Gracias.

1. Pavo asado

(Crédito de la imagen: futuro)

Inmediato: “Crea una imagen de pavo cocido de Acción de Gracias listo para servir”.

Google Géminis
entregó una imagen muy realista de un pavo que, desafortunadamente, parece demasiado bien hecha. La atención al detalle, incluida la textura de la piel crujiente, hizo que este plato principal pareciera excepcionalmente realista. Sin embargo, el pavo era pequeño y demasiado hecho para servirlo.

Continue Reading

Trending