Una importante demanda por derechos de autor contra Meta ha revelado un tesoro de comunicaciones internas sobre los planes de la compañía para desarrollar sus modelos de IA de código abierto, Llama, que incluyen discusiones sobre cómo evitar “la cobertura de los medios que sugiera que hemos utilizado un conjunto de datos que sabemos que es pirateado”.
Noticias
ChatGPT es el rastreador de artículos del hogar que he estado esperando durante años
Resumen
- ChatGPT es un rastreador eficaz de artículos del hogar con procesamiento de lenguaje natural para facilitar la búsqueda.
- ChatGPT puede almacenar recuerdos con detalles específicos para una fácil recuperación sin nombres exactos.
- Las limitaciones de ChatGPT incluyen límites de espacio en la memoria y el requisito de entrada manual.
Pierdo gran parte de mi vida buscando artículos del hogar que he guardado en “lugares seguros” que ya no puedo recordar. Los sistemas de seguimiento de artículos que he usado en el pasado han sido una decepción, pero es posible que finalmente haya encontrado lo que estaba buscando en ChatGPT.
Por qué siempre quise un rastreador de artículos del hogar
Mi memoria es terrible. Perdí la cuenta de la cantidad de veces que preparé una taza de café, solo para encontrar la taza llena de café frío junto a mí un rato después, porque me quedé atrapado haciendo otra cosa y lo olvidé por completo. que el café estaba ahí. Cada vez pienso que debería invertir en una taza inteligente, solo para olvidarme por completo de la idea hasta la próxima vez que mi café se enfríe.
Lo mismo ocurre con mis pertenencias. Pienso en un lugar inteligente para colocar un artículo que rara vez uso, pero luego instantáneamente olvido dónde está ese lugar. La próxima vez que lo necesito, paso horas buscando todos los posibles lugares inteligentes donde podría haberlo almacenado. Puedo tomar nota de dónde puse las cosas, pero luego tengo que recordar dónde las anoté, lo que lleva al mismo problema nuevamente.
Como un geek confeso, estoy convencido de que debe haber una solución tecnológica para este problema. Si no puedo recordar dónde están todas mis cosas, ¿seguramente hay alguna tecnología que pueda hacerlo?
Rastreadores de artículos que finalmente no sirvieron de nada
Probé algunas soluciones tecnológicas en el pasado, pero al final no me dieron lo que necesitaba. Me emocioné cuando me enteré por primera vez de la función “Recordar esto” de Alexa que me permitiría decirle a Alexa que recordara dónde estaban las cosas para mí. Sin embargo, mi entusiasmo se vio truncado cuando descubrí que esta característica ni siquiera existía en mi localidad.
Sin embargo, investigué un poco sobre la función, en caso de que fuera algo que finalmente se lanzara en todo el mundo. Pronto quedó claro que la función era demasiado limitada para darme lo que quería; solicitudes como “¿Dónde están mis pastillas?” normalmente fallaría.
Es necesario utilizar frases como “¿Qué puedes decirme sobre mis pastillas?” y si no recuerdo dónde están mis pastillas, tampoco recordaré el formato correcto para preguntarle a Alexa dónde están.
Otro problema importante con la función “Recordar esto” de Alexa es que si no usas el mismo nombre del elemento cada vez, puede caerse. Si le dices a Alexa que recuerde dónde está algo y luego usas un nombre diferente para ese objeto cuando le preguntas dónde está, es posible que Alexa no entienda de qué estás hablando. Esto puede mejorar cuando Alexa obtenga su tan esperada actualización de IA, pero por ahora, es un problema grave.
Lo mismo ocurrió con el otro método que probé. Utilizo Home Assistant para automatizar mis dispositivos domésticos inteligentes y pensé que podría haber una manera de realizar un seguimiento de dónde está todo en mi casa guardando la información en una base de datos que pudiera consultar. El problema era que si intentaba buscar en la base de datos usando “medicamentos” en lugar de “pastillas”, no encontraría nada, por lo que tenía que recordar exactamente cómo había llamado cada elemento, lo que me daba más cosas que olvidar.
Uso de ChatGPT como rastreador de artículos del hogar
Sin embargo, finalmente encontré una solución que funciona: ChatGPT. ChatGPT no solo puede almacenar recuerdos que puedes consultar en cualquier momento, sino que también tiene procesamiento de lenguaje natural. Eso significa que si le he dicho dónde están mis pastillas y le pregunto la ubicación de mis medicamentos, puede darse cuenta de que estoy hablando de lo mismo.
Todo lo que necesitas hacer es pedirle a ChatGPT que recuerde algo y se agregará a la memoria permanente. Por ejemplo, puedo decir “Recuerda que el soporte del árbol de Navidad está en el cobertizo de herramientas” y ChatGPT agregará esa información a su memoria. Si luego pregunto “¿Dónde está la base del árbol de Navidad?” ChatGPT me dirá que está en el cobertizo de herramientas, aunque no lo llamé “soporte”, que fue el término utilizado al crear la memoria.
Puedo agregar más recuerdos para guardar información sobre la ubicación de otros elementos, y siempre se puede acceder a estos recuerdos desde cualquier chat dentro de ChatGPT. Si en algún momento muevo el soporte del árbol de Navidad a otra ubicación, puedo pedirle a ChatGPT que actualice la memoria con la nueva ubicación y la memoria original se sobrescribirá con la nueva ubicación.
Lo bueno de usar ChatGPT es que los chatbots de IA son muy buenos para comprender el contexto de lo que estás diciendo. No es necesario que recuerdes la frase exacta que debes utilizar al preguntar dónde está algo, ni tampoco el nombre exacto del elemento. Intenté preguntar “¿Sabes dónde está el soporte del árbol?” y “¿Qué hice con la base festiva?” y en ambos casos, ChatGPT me dijo dónde estaba el puesto del árbol de Navidad.
Incluso si no recuerdas cómo se llama el objeto, puedes preguntar algo como “¿Dónde está el objeto donde pusiste el árbol?”. y ChatGPT seguirá entendiendo lo que quieres decir. Es ideal para aquellos que nos cuesta recordar las cosas más simples.
Limitaciones de ChatGPT como rastreador de artículos
Si bien ChatGPT es, con diferencia, la mejor manera que he encontrado para recordar dónde se guardaron los artículos del hogar, no es perfecta. Probablemente la mayor limitación es que la memoria de ChatGPT no es enorme y eventualmente se llenará. Una vez que esto sucede, no podrá almacenar ningún recuerdo nuevo sin eliminar otros.
Para una cuenta gratuita, el límite es actualmente de 2000 tokens (aproximadamente 1500 palabras) y los usuarios Plus obtienen 8000 tokens (aproximadamente 6000 palabras) de espacio de memoria. Significa que puedes recordar una cantidad razonable de objetos como usuario Plus, pero no podrás almacenar recuerdos sobre cada objeto que posees.
La otra limitación obvia es que ChatGPT no puede recordar dónde están los elementos sin su intervención. En otras palabras, debes recordar decirle a ChatGPT dónde estás poniendo las cosas. Si colocas el soporte del árbol de Navidad en el cobertizo de herramientas, pero te olvidas de contarle a ChatGPT lo que has hecho, volverás a tener que intentar recordarlo por ti mismo nuevamente.
Cómo borrar recuerdos en ChatGPT
Si descubres que no puedes agregar más recuerdos a ChatGPT porque la memoria está llena, puedes eliminar algunos recuerdos que ya no necesites. Es bastante fácil eliminar recuerdos individuales para no tener que borrarlos todos y empezar de cero.
Abra la aplicación ChatGPT y toque el nombre de su cuenta en la parte inferior del panel de menú. Seleccione “Personalización” y toque “Administrar memoria”. Para eliminar un recuerdo, deslícese hacia la izquierda y toque el ícono de la papelera. Repita para cualquier otro recuerdo que desee eliminar.
He estado buscando una forma de rastrear rápida y fácilmente la ubicación de los elementos de mi casa y, hasta ahora, no he encontrado una solución que funcione lo suficientemente bien. Sin embargo, ChatGPT parece ser el rastreador de artículos del hogar que siempre quise. El tiempo dirá si hay suficiente memoria para mis necesidades, pero hasta ahora es exactamente lo que estaba buscando.
Noticias
OpenAI y The New York Times debaten la infracción de derechos de autor de las empresas de tecnología de IA en los argumentos del primer juicio
El juicio por infracción de derechos de autor entre The New York Times y OpenAI comenzó en una audiencia en un tribunal federal el martes.
Un juez escuchó los argumentos de ambas partes en una moción de desestimación presentada por OpenAI y su patrocinador financiero Microsoft. El New York Times, así como The New York Daily News y el Center for Investigative Reporting, que han presentado sus propias demandas contra OpenAI y Microsoft, afirman que OpenAI y Microsoft utilizaron el contenido de los editores para entrenar sus grandes modelos de lenguaje que impulsaban su IA generativa. chatbots. Hacerlo significa que las empresas de tecnología están compitiendo con esos editores utilizando su contenido responde a las preguntas de los usuarios, eliminando el incentivo para que un usuario visite sus sitios en busca de esa información y, en última instancia, perjudicando su capacidad de monetizar a esos usuarios a través de publicidad digital y suscripciones, afirman.
OpenAI y Microsoft dicen que lo que están haciendo está cubierto por el “uso justo”, una ley que permite el uso de material protegido por derechos de autor para crear algo nuevo que no compita con el trabajo original.
El resultado de esta demanda tiene grandes implicaciones para todo el ecosistema de medios digitales y determinará la legalidad de las herramientas de inteligencia artificial generativa que utilizan el trabajo protegido por derechos de autor del editor sin su consentimiento para la capacitación.
Estos fueron los principales argumentos durante el juicio:
El argumento del New York Times
Usar contenido protegido por derechos de autor
OpenAI está utilizando el contenido del New York Times para entrenar sus grandes modelos de lenguaje, a veces haciendo copias de ese contenido, afirman los demandantes. A veces, se devuelven varios párrafos o artículos completos que forman parte de ese conjunto de datos de entrenamiento en respuesta a la solicitud de un usuario. Y en algunos casos, el LLM también regurgita contenido nuevo que el LLM no usó para su capacitación (debido a una fecha límite) en respuesta a una solicitud. Los demandantes dieron ejemplos de resultados que contienen lenguaje literal o resúmenes de artículos sin atribución del New York Times.
Los LLM copian contenido porque no pueden procesar información como los humanos
Los humanos pueden leer algo, comprender la información subyacente y aprender algo nuevo, lo que no se considera copiar información. Pero los LLM no tienen la capacidad de hacer eso porque son máquinas, lo que significa que los modelos absorben la “expresión” de los hechos, no los hechos en sí, lo que debería considerarse una infracción de derechos de autor, según los abogados del New York Times.
La búsqueda generativa con IA es diferente de un motor de búsqueda tradicional
A diferencia de un motor de búsqueda tradicional (donde se proporcionan enlaces a la fuente original y un editor puede monetizar ese tráfico a través de publicidad o suscripciones), un motor de búsqueda generativo proporciona la respuesta a una pregunta con fuentes en las notas a pie de página. Las notas a pie de página, argumentan los abogados del New York Times, pueden contener una variedad de fuentes, lo que perjudica la capacidad del editor para llevar a ese usuario a su sitio.
Evadiendo los muros de pago
OpenAI tiene GPT personalizados en su tienda con productos que ayudan a los usuarios a eliminar los muros de pago. “Los usuarios publicaban en foros de Reddit y en las redes sociales cómo habían sorteado un muro de pago utilizando un producto llamado SearchGPT y, de hecho, OpenAI retiró el producto después de darse cuenta de que se estaban utilizando productos para infringir la ley”, dijo Ian Crosby, socio de Susman Godfrey y el abogado principal del New York Times.
El contenido urgente se elimina sin atribución
Los abogados del New York Times dijeron que se estaba utilizando contenido del sitio de recomendación de productos Wirecutter del Times sin la atribución adecuada, lo que significa que Wirecutter perdió ingresos debido a que las personas no hicieron clic en el sitio y en los enlaces de afiliados. Y ese contenido eliminado a veces era urgente, como las recomendaciones de productos durante el Black Friday. Afirman que el contenido debería estar protegido por una doctrina de “noticias candentes”, parte de la ley de derechos de autor que protege las noticias urgentes del uso de los competidores. Los abogados argumentaron que ChatGPT citó algunos productos como respaldados por Wirecutter cuando no lo estaban, lo que daña la reputación de la marca.
OpenAI y los argumentos de Microsoft
Doctrina de uso legítimo
Los abogados de OpenAI y Microsoft dijeron que los materiales protegidos por derechos de autor en cuestión están permitidos según la doctrina del uso justo. Las empresas de inteligencia artificial han sido firmes defensoras de la doctrina, que permite el uso de materiales protegidos por derechos de autor sin permiso siempre que el uso sea diferente de su propósito principal, se use en contextos no comerciales y no se use de una manera que pueda dañar a quien posee los derechos de autor. .
Annette Hurst, abogada que representa a Microsoft, dijo que los LLM entienden el lenguaje y las ideas que pueden adaptarse para “todo, desde curar el cáncer hasta la seguridad nacional: “Los demandantes, en sus propias palabras, han alegado que esta tecnología es capaz de comercializarse por una suma de miles de millones. de dólares sin tener en cuenta ninguna capacidad de cómo”.
Cómo funcionan los LLM
Los abogados defensores tampoco estuvieron de acuerdo con sus homólogos demandantes a la hora de describir cómo funcionan los modelos de lenguaje grandes. Por ejemplo, el abogado de OpenAI dijo que los LLM de la compañía en realidad no almacenan contenido protegido por derechos de autor, sino que simplemente dependen del peso de los datos derivados del proceso de capacitación.
“Si os digo: ‘Ayer todos mis problemas me parecían así’, todos pensaremos para nosotros mismos [think] “lejos” porque hemos estado expuestos a ese texto muchas veces”, dijo Joe Gratz, abogado de Morrison & Foerster que representó a OpenAI. “Eso no significa que tengas una copia de esa canción en algún lugar de tu cerebro”.
Estatuto de limitaciones
Los abogados afirmaron que la demanda no debería permitirse debido al plazo de prescripción de tres años para los casos de infracción de derechos de autor. Sin embargo, los abogados del Times señalan que en abril de 2021 no era posible saber si OpenAI utilizaría el contenido de los editores de forma que pudiera dañarlo.
Ejemplos ‘engañosos’
Los abogados del Times dicen que han encontrado millones de ejemplos para fundamentar su caso. Sin embargo, OpenAI argumentó que los demandantes han sido engañosos con ejemplos de cómo ChatGPT replica contenido protegido por derechos de autor y con ejemplos de cómo el contenido generado por IA cita al Times en respuestas inexactas. Los abogados defensores también afirman que el Times explotó aspectos de ChatGPT que ayudaron a utilizar indicaciones para generar contenido de IA que violaba los términos de OpenAI. (Los abogados también señalaron que OpenAI ha tratado de abordar las debilidades).
No hay pruebas de daño
Las afirmaciones del Times incluyen que OpenAI elimine la información de gestión de derechos de autor (CMI), como cabeceras, firmas de autores y otra información identificable. Sin embargo, OpenAI y Microsoft dicen que los demandantes no han demostrado cómo se vieron perjudicados al eliminar CMI. También afirman que los demandantes no han demostrado que OpenAI y Microsoft hayan infringido voluntariamente obras protegidas por derechos de autor. Sin embargo, los abogados demandantes dijeron que fallos judiciales anteriores han reconocido que copiar contenido protegido por derechos de autor era una infracción en sí misma sin necesidad de probar la difusión o la pérdida económica.
“Su mayor problema es que no tienen una historia plausible de cómo estarían mejor si el CMI que dicen que fue eliminado, en realidad lo fuera”, dijo Gratz. “… No hay manera en la que el mundo sería mejor para ellos en la forma en que dicen que el mundo no es bueno para ellos si el CMI que dicen que fue eliminado nunca fue eliminado”.
¿Qué viene después?
La demanda del Times es sólo una de las muchas demandas que enfrenta OpenAI. Si bien OpenAI ganó un caso en noviembre, otras demandas en curso incluyen quejas de un grupo de editores de noticias canadienses, un grupo de periódicos estadounidenses propiedad de Alden Capital y una demanda colectiva presentada por un grupo de autores. (OpenAI, Perplexity y Microsoft se involucraron en la demanda antimonopolio de búsqueda en curso de Google después de que Google envió citaciones a las tres empresas).
Otros gigantes y nuevas empresas tecnológicas importantes tienen sus propias batallas legales relacionadas con la inteligencia artificial y los derechos de autor. Meta se enfrenta a una demanda colectiva presentada por un grupo de escritores, entre ellos Sarah Silverman. Perplexity es uno de los acusados en una demanda presentada en octubre por News Corp. Google se enfrenta a una demanda presentada en su contra por el Authors Guild.
No está claro cuándo el juez estadounidense Sidney Stein emitirá su decisión sobre si se debe permitir que el caso avance. Megan Gray, abogada y fundadora de GrayMatters Law & Policy, asistió a la audiencia en persona y señaló que Stein parecía estar “en esto por mucho tiempo” y era poco probable que lo descartara tan pronto.
“El juez Stein estaba comprometido y curioso, algo notable dada su edad y su falta de sofisticación técnica”, dijo Gray. “Él entendió los casos y las posiciones, además tiene control estricto sobre su sala del tribunal. Normalmente no proporciona una línea de audio para el público y el hecho de que lo haya hecho aquí indica que está muy familiarizado con la importancia del caso y su impacto en la sociedad”.
Noticias
Dentro de la carrera de Meta para vencer a OpenAI: “Necesitamos aprender a construir fronteras y ganar esta carrera”
Los mensajes, que formaban parte de una serie de pruebas reveladas por un tribunal de California, sugieren que Meta utilizó datos protegidos por derechos de autor cuando entrenó sus sistemas de inteligencia artificial y trabajó para ocultarlos, mientras corría para vencer a rivales como OpenAI y Mistral. Partes de los mensajes se revelaron por primera vez la semana pasada.
En un correo electrónico de octubre de 2023 al investigador de Meta AI Hugo Touvron, Ahmad Al-Dahle, vicepresidente de IA generativa de Meta, escribió que el objetivo de la compañía “debe ser GPT4”, refiriéndose al modelo de lenguaje grande OpenAI anunciado en marzo de 2023. Meta Teníamos que “aprender a construir fronteras y ganar esta carrera”, añadió Al-Dahle. Esos planes aparentemente involucraban al sitio de piratería de libros Library Genesis (LibGen) para entrenar sus sistemas de inteligencia artificial.
Un correo electrónico sin fecha del director de producto de Meta, Sony Theakanath, enviado a la vicepresidenta de investigación de IA, Joelle Pineau, sopesó si usar LibGen solo internamente, para los puntos de referencia incluidos en una publicación de blog o para crear un modelo entrenado en el sitio. En el correo electrónico, Theakanath escribe que “GenAI ha sido aprobado para usar LibGen para Llama3… con una serie de mitigaciones acordadas” después de escalarlo a “MZ”, presumiblemente el CEO de Meta, Mark Zuckerberg. Como se señala en el correo electrónico, Theakanath creía que “Libgen es esencial para cumplir con SOTA [state-of-the-art] números”, y agregó “se sabe que OpenAI y Mistral están utilizando la biblioteca para sus modelos (de boca en boca)”. Mistral y OpenAI no han declarado si utilizan o no LibGen. (El borde contacté a ambos para obtener más información).
Los documentos judiciales surgen de una demanda colectiva que el autor Richard Kadrey, la comediante Sarah Silverman y otros presentaron contra Meta, acusándola de utilizar contenido protegido por derechos de autor obtenido ilegalmente para entrenar sus modelos de IA, en violación de las leyes de propiedad intelectual. Meta, al igual que otras empresas de inteligencia artificial, ha argumentado que el uso de material protegido por derechos de autor en datos de entrenamiento debería constituir un uso legítimo y legal. El borde Se comunicó con Meta para solicitar comentarios, pero no recibió respuesta de inmediato.
Algunas de las “mitigaciones” para el uso de LibGen incluían estipulaciones de que Meta debía “eliminar los datos claramente marcados como pirateados/robados”, evitando al mismo tiempo citar externamente “el uso de cualquier dato de entrenamiento” del sitio. El correo electrónico de Theakanath también decía que la compañía necesitaría “equipar” los modelos de la compañía “para armas biológicas y CBRNE”. [Chemical, Biological, Radiological, Nuclear, and Explosives]“Riesgos.
El correo electrónico también repasaba algunos de los “riesgos políticos” que plantea el uso de LibGen, incluyendo cómo los reguladores podrían responder a la cobertura de los medios que sugiere el uso de contenido pirateado por parte de Meta. “Esto puede socavar nuestra posición negociadora con los reguladores sobre estos temas”, decía el correo electrónico. Una conversación de abril de 2023 entre el investigador de Meta Nikolay Bashlykov y el miembro del equipo de IA David Esiobu también mostró que Bashlykov admitió que “no está seguro de que podamos usar las IP de Meta para cargar torrents”. [of] contenido pirata”.
Otros documentos internos muestran las medidas que tomó Meta para ocultar la información de derechos de autor en los datos de entrenamiento de LibGen. Un documento titulado “observaciones sobre LibGen-SciMag” muestra los comentarios dejados por los empleados sobre cómo mejorar el conjunto de datos. Una sugerencia es “eliminar más encabezados de derechos de autor e identificadores de documentos”, lo que incluye cualquier línea que contenga “ISBN”, “Copyright”, “Todos los derechos reservados” o el símbolo de copyright. Otras notas mencionan eliminar más metadatos “para evitar posibles complicaciones legales”, así como considerar la posibilidad de eliminar la lista de autores de un artículo “para reducir la responsabilidad”.
El pasado mes de junio, Los New York Times informó sobre la frenética carrera dentro de Meta después del debut de ChatGPT, revelando que la compañía se había topado con un muro: había agotado casi todos los libros, artículos y poemas en inglés disponibles que pudo encontrar en línea. Desesperados por obtener más datos, los ejecutivos supuestamente discutieron la compra directa de Simon & Schuster y consideraron contratar contratistas en África para resumir libros sin permiso.
En el informe, algunos ejecutivos justificaron su enfoque señalando el “precedente de mercado” de OpenAI de utilizar obras protegidas por derechos de autor, mientras que otros argumentaron que la victoria judicial de Google en 2015 estableciendo su derecho a escanear libros podría proporcionar cobertura legal. “Lo único que nos impide ser tan buenos como ChatGPT es, literalmente, el volumen de datos”, dijo un ejecutivo en una reunión, según Los New York Times.
Se ha informado que laboratorios de vanguardia como OpenAI y Anthropic se han topado con un muro de datos, lo que significa que no tienen suficientes datos nuevos para entrenar sus grandes modelos de lenguaje. Muchos líderes lo han negado, el director ejecutivo de OpenAI, Sam Altman, dijo claramente: “No hay ningún muro”. El cofundador de OpenAI, Ilya Sutskever, que dejó la empresa en mayo pasado para iniciar un nuevo laboratorio de frontera, ha sido más directo sobre el potencial de un muro de datos. En una importante conferencia sobre IA el mes pasado, Sutskever dijo: “Hemos alcanzado el pico de datos y no habrá más. Tenemos que lidiar con los datos que tenemos. Sólo hay una Internet”.
Esta escasez de datos ha dado lugar a muchas formas nuevas y extrañas de obtener datos únicos. Bloomberg informó que laboratorios de vanguardia como OpenAI y Google han estado pagando a los creadores de contenido digital entre $ 1 y $ 4 por minuto por sus secuencias de video no utilizadas a través de un tercero para capacitar a los LLM (ambas compañías tienen productos de generación de video de IA de la competencia).
Dado que empresas como Meta y OpenAI esperan hacer crecer sus sistemas de inteligencia artificial lo más rápido posible, es probable que las cosas se pongan un poco complicadas. Aunque un juez desestimó parcialmente la demanda colectiva de Kadrey y Silverman el año pasado, las pruebas descritas aquí podrían fortalecer partes de su caso a medida que avanza en los tribunales.
Noticias
La IA Gemini de Google acaba de romper las reglas del procesamiento visual: esto es lo que eso significa para usted
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información
Gemini AI de Google ha trastocado silenciosamente el panorama de la inteligencia artificial, logrando un hito que pocos creían posible: el procesamiento simultáneo de múltiples flujos visuales en tiempo real.
Este avance, que permite a Gemini no solo ver videos en vivo sino también analizar imágenes estáticas simultáneamente, no se dio a conocer a través de las plataformas emblemáticas de Google. En cambio, surgió de una aplicación experimental llamada “AnyChat”.
Este salto imprevisto subraya el potencial sin explotar de la arquitectura de Gemini, ampliando los límites de la capacidad de la IA para manejar interacciones complejas y multimodales. Durante años, las plataformas de IA se han limitado a gestionar transmisiones de vídeo en directo o fotografías estáticas, pero nunca ambas a la vez. Con AnyChat, esa barrera se ha roto decisivamente.
“Ni siquiera el servicio pago de Gemini puede hacer esto todavía”, dice Ahsen Khaliq, líder de aprendizaje automático en Gradio y creador de AnyChat, en una entrevista exclusiva con VentureBeat. “Ahora puedes tener una conversación real con la IA mientras procesa tanto tu video en vivo como cualquier imagen que quieras compartir”.
Cómo Gemini de Google está redefiniendo silenciosamente la visión de la IA
El logro técnico detrás de la capacidad de transmisión múltiple de Gemini radica en su arquitectura neuronal avanzada, una infraestructura que AnyChat explota hábilmente para procesar múltiples entradas visuales sin sacrificar el rendimiento. Esta capacidad ya existe en la API de Gemini, pero no está disponible en las aplicaciones oficiales de Google para los usuarios finales.
Por el contrario, las demandas computacionales de muchas plataformas de IA, incluido ChatGPT, las limitan al procesamiento de un solo flujo. Por ejemplo, ChatGPT actualmente desactiva la transmisión de video en vivo cuando se carga una imagen. Incluso manejar una sola transmisión de video puede agotar los recursos, y mucho menos combinarla con el análisis de imágenes estáticas.
Las aplicaciones potenciales de este avance son tan transformadoras como inmediatas. Los estudiantes ahora pueden apuntar su cámara a un problema de cálculo mientras le muestran a Gemini un libro de texto como guía paso a paso. Los artistas pueden compartir trabajos en progreso junto con imágenes de referencia, recibiendo comentarios matizados y en tiempo real sobre la composición y la técnica.
La tecnología detrás del avance de la IA de flujo múltiple de Gemini
Lo que hace que el logro de AnyChat sea notable no es sólo la tecnología en sí, sino la forma en que elude las limitaciones del despliegue oficial de Gemini. Este avance fue posible gracias a las prestaciones especializadas de la API Gemini de Google, que permiten a AnyChat acceder a funciones que siguen ausentes en las propias plataformas de Google.
Al utilizar estos permisos ampliados, AnyChat optimiza los mecanismos de atención de Gemini para rastrear y analizar múltiples entradas visuales simultáneamente, todo mientras mantiene la coherencia conversacional. Los desarrolladores pueden replicar fácilmente esta capacidad usando unas pocas líneas de código, como lo demuestra el uso de Gradio por parte de AnyChat, una plataforma de código abierto para crear interfaces de aprendizaje automático.
Por ejemplo, los desarrolladores pueden lanzar su propia plataforma de video chat impulsada por Gemini con soporte para carga de imágenes utilizando el siguiente fragmento de código:
Esta simplicidad resalta cómo AnyChat no es solo una demostración del potencial de Gemini, sino un conjunto de herramientas para desarrolladores que buscan crear aplicaciones de IA personalizadas habilitadas para visión.
Lo que hace que el logro de AnyChat sea notable no es sólo la tecnología en sí, sino la forma en que elude las limitaciones del despliegue oficial de Gemini. Este avance fue posible gracias a asignaciones especializadas del equipo Gemini de Google, que permitieron a AnyChat acceder a funciones que permanecen ausentes en las propias plataformas de Google.
“La función de vídeo en tiempo real de Google AI Studio no puede manejar imágenes cargadas durante la transmisión”, dijo Khaliq a VentureBeat. “Ninguna otra plataforma ha implementado este tipo de procesamiento simultáneo en este momento”.
La aplicación experimental que desbloqueó las capacidades ocultas de Gemini
El éxito de AnyChat no fue un simple accidente. Los desarrolladores de la plataforma trabajaron estrechamente con la arquitectura técnica de Gemini para ampliar sus límites. Al hacerlo, revelaron un lado de Gemini que ni siquiera las herramientas oficiales de Google han explorado aún.
Este enfoque experimental permitió a AnyChat manejar transmisiones simultáneas de video en vivo e imágenes estáticas, rompiendo esencialmente la “barrera de la transmisión única”. El resultado es una plataforma que se siente más dinámica, intuitiva y capaz de manejar casos de uso del mundo real de manera mucho más efectiva que sus competidores.
Por qué el procesamiento visual simultáneo cambia las reglas del juego
Las implicaciones de las nuevas capacidades de Gemini van mucho más allá de las herramientas creativas y las interacciones casuales de IA. Imagine a un profesional médico mostrando a una IA los síntomas de un paciente en vivo y escaneos de diagnóstico históricos al mismo tiempo. Los ingenieros podían comparar el rendimiento del equipo en tiempo real con esquemas técnicos y recibir comentarios instantáneos. Los equipos de control de calidad podrían comparar la producción de la línea de producción con los estándares de referencia con una precisión y eficiencia sin precedentes.
En educación, el potencial es transformador. Los estudiantes pueden usar Gemini en tiempo real para analizar libros de texto mientras trabajan en problemas de práctica, recibiendo apoyo contextual que cierra la brecha entre entornos de aprendizaje estáticos y dinámicos. Para los artistas y diseñadores, la capacidad de mostrar múltiples aportaciones visuales simultáneamente abre nuevas vías para la colaboración y la retroalimentación creativa.
Qué significa el éxito de AnyChat para el futuro de la innovación en IA
Por ahora, AnyChat sigue siendo una plataforma de desarrollo experimental, que opera con límites de velocidad ampliados otorgados por los desarrolladores de Gemini. Sin embargo, su éxito demuestra que la visión simultánea de múltiples flujos de IA ya no es una aspiración lejana: es una realidad presente, lista para su adopción a gran escala.
La aparición de AnyChat plantea preguntas provocativas. ¿Por qué el lanzamiento oficial de Gemini no incluyó esta capacidad? ¿Es un descuido, una elección deliberada en la asignación de recursos o una indicación de que desarrolladores más pequeños y ágiles están impulsando la próxima ola de innovación?
A medida que se acelera la carrera de la IA, la lección de AnyChat es clara: es posible que los avances más significativos no siempre provengan de los crecientes laboratorios de investigación de los gigantes tecnológicos. En cambio, pueden provenir de desarrolladores independientes que ven potencial en las tecnologías existentes y se atreven a impulsarlas más.
Ahora que la innovadora arquitectura de Gemini ha demostrado ser capaz de procesar múltiples flujos, el escenario está preparado para una nueva era de aplicaciones de IA. Aún es incierto si Google incorporará esta capacidad a sus plataformas oficiales. Sin embargo, una cosa está clara: la brecha entre lo que la IA puede hacer y lo que hace oficialmente se ha vuelto mucho más interesante.
-
Startups8 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos8 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Recursos8 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Recursos8 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Tutoriales8 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Estudiar IA8 meses ago
Curso de Inteligencia Artificial de UC Berkeley estratégico para negocios
-
Startups6 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Eventos8 meses ago
La nueva era de la inteligencia artificial por el Washington Post – Mayo 2024