Una importante demanda por derechos de autor contra Meta ha revelado un tesoro de comunicaciones internas sobre los planes de la compañía para desarrollar sus modelos de IA de código abierto, Llama, que incluyen discusiones sobre cómo evitar “la cobertura de los medios que sugiera que hemos utilizado un conjunto de datos que sabemos que es pirateado”.
Noticias
¿Esperando que ChatGPT mejore? Es posible que esté esperando un poco, este es el motivo
Resumen
- La cadencia de lanzamiento de ChatGPT se está desacelerando y avanza hacia actualizaciones anuales.
- La tecnología de transformadores y los rendimientos decrecientes están provocando que el desarrollo de LLM se ralentice.
- La falta de datos de entrenamiento y modelos de ganancias inciertos desafían el futuro de proyectos de inteligencia artificial como ChatGPT.
ChatGPT cambió la forma en que muchas personas en todo el mundo viven y trabajan, pero aquellos que están atentos a la cadencia de los modelos han notado que últimamente se ha ralentizado. ¿Qué está pasando con el desarrollo de LLM? ¿Nos dirigimos hacia una era oscura de la IA en 2025 y más allá?
ChatGPT: una línea de tiempo
Cuando OpenAI lanzó su primer modelo público, ChatGPT 3.5, en noviembre de 2022, arrasó en las industrias de búsqueda y de inteligencia artificial. Hasta el lanzamiento de Meta Threads en 2023, ChatGPT era la aplicación de más rápido crecimiento de todos los tiempos, añadiendo 100 millones de usuarios a su lista en menos de tres meses.
Desde entonces, la compañía ha pasado de una cadencia de aproximadamente seis meses entre nuevos modelos a, en cambio, avanzar hacia actualizaciones anuales. Si bien pasaron solo cinco meses entre el lanzamiento de ChatGPT 3.5 y ChatGPT 4.0, ChatGPT o1 tardó desde marzo de 2023 hasta diciembre de 2024 en lanzarse después de eso.
Dado que o3 carece de una fecha de lanzamiento firme, no se sabe realmente cuándo veremos el próximo gran modelo de OpenAI. Algunos de los primeros probadores ya han conseguido la versión beta, pero eso no da mucha señal sobre cuándo podemos esperar que la próxima evolución en LLM llegue a las PC públicas. Entonces, ¿cuáles son algunas de las razones por las que el desarrollo de LLM ha comenzado a desacelerarse? ¿La inversión del mundo tecnológico pagará dividendos al final?
Autobots, despliegue
Los transformadores son la tecnología fundamental que transformó por primera vez (a falta de un término mejor) la industria de la IA, a partir de 2017. Al utilizar la arquitectura CUDA dentro de las GPU como una plataforma informática total en lugar de solo renderización de imágenes, los transformadores pueden convertir incluso las aplicaciones más Tarjetas gráficas básicas en procesadores compatibles con IA.
Pero si bien muchos de los primeros modelos de modelos de lenguaje grande (LLM) y sus entradas de tokens más pequeños pudieron aprovechar más la arquitectura CUDA, últimamente hemos visto rendimientos decrecientes. Como una versión acelerada de la Ley de Moore, que sin duda es una simplificación drástica de la tecnología al servicio de la brevedad, las GPU han comenzado a alcanzar su punto máximo en rendimiento de IA a pesar de una mayor inversión en densidad de transistores y especificaciones de VRAM año tras año.
Incluso el discurso de apertura de Nvidia en el CES de este año fue recibido con reacciones tibias, ya que quedó claro que ya hemos llegado a la fase “evolutiva” del hardware de IA, en lugar de los saltos “revolucionarios” que algunos esperaban dada la trayectoria de los últimos años.
Todavía no estamos tan cerca del punto de llevar el hardware de IA basado en GPU a su límite físico teórico como lo estamos con algunas CPU clásicas. (Nota: esto no incluye los enfoques más nuevos basados en 3D). Sin embargo, los principales avances que hemos visto en los últimos cinco años en GPU y el soporte de arquitecturas de transformadores están comenzando a ralentizarse, en lugar del sprint que algunos En la industria esperaban una informática clásica entre los años 1980 y principios de los años 2000.
Raspar el fondo del barril
Otro obstáculo importante al que se enfrentan muchas empresas de LLM en este momento, incluida OpenAI con ChatGPT, es la falta de datos de capacitación. Como todos los LLM respaldados por FAANG (Gemini, Claude y ChatGPT) ya han absorbido y capacitado en lo que efectivamente podría considerarse la totalidad de la información pública disponible en la web abierta, las empresas se están topando con una pared de ladrillos de entrada a salida. regresa.
Sin muchos datos nuevos para entrenar la próxima generación de modelos, algunos desarrolladores han recurrido a lo que se conoce como modelo de entrenamiento “recursivo”. En estos casos, la IA se utiliza para entrenar la IA, pero los resultados han sido, en el mejor de los casos, heterogéneos. Si bien los conceptos y tareas más simples se pueden entrenar de forma recursiva, lograr resultados mayores que los observados con una IA entrenada con resultados humanos es un problema de alucinación. Si antes pensaba que las IA podían alucinar, intente alimentar una IA con otra IA y vea qué tipo de resultados regresan. En definitiva, una parte nada despreciable se recupera sobre el terreno.
La carrera por la supremacía de la IA y el LLM ha alimentado un montón de dinero que se vierte en la industria, que ascenderá a un total de más de 1 billón de dólares en los próximos años, según lo pronosticado por un análisis reciente de Goldman Sachs. Sin embargo, incluso con todo ese dinero disponible, el costo hundido de capacitar y mantener un LLM como ChatGPT todavía está buscando un canal de ganancias para mantener las luces encendidas.
La capacitación, el funcionamiento y las solicitudes de extracción de los LLM cuestan una cantidad considerable más que la búsqueda estándar de Google. Algunas estimaciones sugieren que una solicitud de ChatGPT podría utilizar diez veces los requisitos de cómputo y energía de una consulta de Google, aunque las cifras reales son un secreto bien guardado por OpenAI. Hasta hace poco, todos los principales actores de FAANG se acercaron a la IA con el manual operativo estándar: “1. Invierta más efectivo de capital de riesgo que sus competidores 2. Capture la mayor participación de mercado posible 3. ??? 4. Ganancias”.
Pero el mundo de la IA es todo menos estándar. Como los costos de computación, no por casualidad, se han disparado junto con el precio de las acciones de Nvidia, el modelo de ganancias real para recuperar esos costos todavía parece, en el mejor de los casos, confuso.
ChatGPT cobra $20 por mes por el acceso a sus modelos más avanzados y recientes. Pero incluso con sus 11 millones de suscriptores de pago, según un informe de The Information que cita al director de operaciones de OpenAI, OpenAI todavía está considerando nuevos niveles de suscripción para LLM más avanzados que podrían alcanzar hasta $2,000 por mes, dependiendo de la capacidad.
Este problema se agrava aún más por la disminución de los rendimientos de los resultados. A medida que muchas personas llegan al punto de que los modelos gratuitos como ChatGPT 4o son “lo suficientemente buenos” para lo que necesitan (por supuesto, “suficiente” es una experiencia subjetiva para cada usuario y su caso de uso), el atractivo de la suscripción mensual pierde su valor. Este temor a una posible pérdida de capital ha llevado a una desaceleración de la inversión en IA en comparación con años anteriores, lo que significa una desaceleración del desarrollo en especie.
¿Cuándo dará ChatGPT su próximo salto?
Mientras ChatGPT se prepara para el lanzamiento de su modelo o3, los analistas de la industria esperan que pueda ser el único lanzamiento público nuevo que veremos de OpenAI en todo 2025. Muchos están felices de que se demuestre que están equivocados, pero dados los problemas mencionados anteriormente, parece más probable cada día.
Pero, en última instancia, ¿es eso algo tan malo? Como muestra la tabla de clasificación de Chatbot Arena, las iteraciones de modelos que antes solo tardaban meses en saltar cientos de puntos entre lanzamientos apenas han avanzado más de unas pocas docenas en más de un año. Estamos alcanzando la cima de lo que los LLM son capaces de hacer incluso en sus entornos de mayor rendimiento, y si bien las aplicaciones corporativas escaladas todavía están listas para ser seleccionadas, lo que un LLM puede hacer por el usuario promedio parece estar acercándose poco a poco a su límite teórico.
Entonces, ¿cuándo tendrás en tus manos la próxima versión de ChatGPT? Sólo el tiempo lo dirá. Pero, mientras esperamos, modelos como ChatGPT o1 y 4o siguen siendo muy potentes para manejar la preparación de una lista de compras ordenada por pasillos, ayudándote a recordar en qué libro leíste una cita específica o lo que quieras usar tu chatbot favorito para la mayoría. a menudo.
Noticias
OpenAI y The New York Times debaten la infracción de derechos de autor de las empresas de tecnología de IA en los argumentos del primer juicio
El juicio por infracción de derechos de autor entre The New York Times y OpenAI comenzó en una audiencia en un tribunal federal el martes.
Un juez escuchó los argumentos de ambas partes en una moción de desestimación presentada por OpenAI y su patrocinador financiero Microsoft. El New York Times, así como The New York Daily News y el Center for Investigative Reporting, que han presentado sus propias demandas contra OpenAI y Microsoft, afirman que OpenAI y Microsoft utilizaron el contenido de los editores para entrenar sus grandes modelos de lenguaje que impulsaban su IA generativa. chatbots. Hacerlo significa que las empresas de tecnología están compitiendo con esos editores utilizando su contenido responde a las preguntas de los usuarios, eliminando el incentivo para que un usuario visite sus sitios en busca de esa información y, en última instancia, perjudicando su capacidad de monetizar a esos usuarios a través de publicidad digital y suscripciones, afirman.
OpenAI y Microsoft dicen que lo que están haciendo está cubierto por el “uso justo”, una ley que permite el uso de material protegido por derechos de autor para crear algo nuevo que no compita con el trabajo original.
El resultado de esta demanda tiene grandes implicaciones para todo el ecosistema de medios digitales y determinará la legalidad de las herramientas de inteligencia artificial generativa que utilizan el trabajo protegido por derechos de autor del editor sin su consentimiento para la capacitación.
Estos fueron los principales argumentos durante el juicio:
El argumento del New York Times
Usar contenido protegido por derechos de autor
OpenAI está utilizando el contenido del New York Times para entrenar sus grandes modelos de lenguaje, a veces haciendo copias de ese contenido, afirman los demandantes. A veces, se devuelven varios párrafos o artículos completos que forman parte de ese conjunto de datos de entrenamiento en respuesta a la solicitud de un usuario. Y en algunos casos, el LLM también regurgita contenido nuevo que el LLM no usó para su capacitación (debido a una fecha límite) en respuesta a una solicitud. Los demandantes dieron ejemplos de resultados que contienen lenguaje literal o resúmenes de artículos sin atribución del New York Times.
Los LLM copian contenido porque no pueden procesar información como los humanos
Los humanos pueden leer algo, comprender la información subyacente y aprender algo nuevo, lo que no se considera copiar información. Pero los LLM no tienen la capacidad de hacer eso porque son máquinas, lo que significa que los modelos absorben la “expresión” de los hechos, no los hechos en sí, lo que debería considerarse una infracción de derechos de autor, según los abogados del New York Times.
La búsqueda generativa con IA es diferente de un motor de búsqueda tradicional
A diferencia de un motor de búsqueda tradicional (donde se proporcionan enlaces a la fuente original y un editor puede monetizar ese tráfico a través de publicidad o suscripciones), un motor de búsqueda generativo proporciona la respuesta a una pregunta con fuentes en las notas a pie de página. Las notas a pie de página, argumentan los abogados del New York Times, pueden contener una variedad de fuentes, lo que perjudica la capacidad del editor para llevar a ese usuario a su sitio.
Evadiendo los muros de pago
OpenAI tiene GPT personalizados en su tienda con productos que ayudan a los usuarios a eliminar los muros de pago. “Los usuarios publicaban en foros de Reddit y en las redes sociales cómo habían sorteado un muro de pago utilizando un producto llamado SearchGPT y, de hecho, OpenAI retiró el producto después de darse cuenta de que se estaban utilizando productos para infringir la ley”, dijo Ian Crosby, socio de Susman Godfrey y el abogado principal del New York Times.
El contenido urgente se elimina sin atribución
Los abogados del New York Times dijeron que se estaba utilizando contenido del sitio de recomendación de productos Wirecutter del Times sin la atribución adecuada, lo que significa que Wirecutter perdió ingresos debido a que las personas no hicieron clic en el sitio y en los enlaces de afiliados. Y ese contenido eliminado a veces era urgente, como las recomendaciones de productos durante el Black Friday. Afirman que el contenido debería estar protegido por una doctrina de “noticias candentes”, parte de la ley de derechos de autor que protege las noticias urgentes del uso de los competidores. Los abogados argumentaron que ChatGPT citó algunos productos como respaldados por Wirecutter cuando no lo estaban, lo que daña la reputación de la marca.
OpenAI y los argumentos de Microsoft
Doctrina de uso legítimo
Los abogados de OpenAI y Microsoft dijeron que los materiales protegidos por derechos de autor en cuestión están permitidos según la doctrina del uso justo. Las empresas de inteligencia artificial han sido firmes defensoras de la doctrina, que permite el uso de materiales protegidos por derechos de autor sin permiso siempre que el uso sea diferente de su propósito principal, se use en contextos no comerciales y no se use de una manera que pueda dañar a quien posee los derechos de autor. .
Annette Hurst, abogada que representa a Microsoft, dijo que los LLM entienden el lenguaje y las ideas que pueden adaptarse para “todo, desde curar el cáncer hasta la seguridad nacional: “Los demandantes, en sus propias palabras, han alegado que esta tecnología es capaz de comercializarse por una suma de miles de millones. de dólares sin tener en cuenta ninguna capacidad de cómo”.
Cómo funcionan los LLM
Los abogados defensores tampoco estuvieron de acuerdo con sus homólogos demandantes a la hora de describir cómo funcionan los modelos de lenguaje grandes. Por ejemplo, el abogado de OpenAI dijo que los LLM de la compañía en realidad no almacenan contenido protegido por derechos de autor, sino que simplemente dependen del peso de los datos derivados del proceso de capacitación.
“Si os digo: ‘Ayer todos mis problemas me parecían así’, todos pensaremos para nosotros mismos [think] “lejos” porque hemos estado expuestos a ese texto muchas veces”, dijo Joe Gratz, abogado de Morrison & Foerster que representó a OpenAI. “Eso no significa que tengas una copia de esa canción en algún lugar de tu cerebro”.
Estatuto de limitaciones
Los abogados afirmaron que la demanda no debería permitirse debido al plazo de prescripción de tres años para los casos de infracción de derechos de autor. Sin embargo, los abogados del Times señalan que en abril de 2021 no era posible saber si OpenAI utilizaría el contenido de los editores de forma que pudiera dañarlo.
Ejemplos ‘engañosos’
Los abogados del Times dicen que han encontrado millones de ejemplos para fundamentar su caso. Sin embargo, OpenAI argumentó que los demandantes han sido engañosos con ejemplos de cómo ChatGPT replica contenido protegido por derechos de autor y con ejemplos de cómo el contenido generado por IA cita al Times en respuestas inexactas. Los abogados defensores también afirman que el Times explotó aspectos de ChatGPT que ayudaron a utilizar indicaciones para generar contenido de IA que violaba los términos de OpenAI. (Los abogados también señalaron que OpenAI ha tratado de abordar las debilidades).
No hay pruebas de daño
Las afirmaciones del Times incluyen que OpenAI elimine la información de gestión de derechos de autor (CMI), como cabeceras, firmas de autores y otra información identificable. Sin embargo, OpenAI y Microsoft dicen que los demandantes no han demostrado cómo se vieron perjudicados al eliminar CMI. También afirman que los demandantes no han demostrado que OpenAI y Microsoft hayan infringido voluntariamente obras protegidas por derechos de autor. Sin embargo, los abogados demandantes dijeron que fallos judiciales anteriores han reconocido que copiar contenido protegido por derechos de autor era una infracción en sí misma sin necesidad de probar la difusión o la pérdida económica.
“Su mayor problema es que no tienen una historia plausible de cómo estarían mejor si el CMI que dicen que fue eliminado, en realidad lo fuera”, dijo Gratz. “… No hay manera en la que el mundo sería mejor para ellos en la forma en que dicen que el mundo no es bueno para ellos si el CMI que dicen que fue eliminado nunca fue eliminado”.
¿Qué viene después?
La demanda del Times es sólo una de las muchas demandas que enfrenta OpenAI. Si bien OpenAI ganó un caso en noviembre, otras demandas en curso incluyen quejas de un grupo de editores de noticias canadienses, un grupo de periódicos estadounidenses propiedad de Alden Capital y una demanda colectiva presentada por un grupo de autores. (OpenAI, Perplexity y Microsoft se involucraron en la demanda antimonopolio de búsqueda en curso de Google después de que Google envió citaciones a las tres empresas).
Otros gigantes y nuevas empresas tecnológicas importantes tienen sus propias batallas legales relacionadas con la inteligencia artificial y los derechos de autor. Meta se enfrenta a una demanda colectiva presentada por un grupo de escritores, entre ellos Sarah Silverman. Perplexity es uno de los acusados en una demanda presentada en octubre por News Corp. Google se enfrenta a una demanda presentada en su contra por el Authors Guild.
No está claro cuándo el juez estadounidense Sidney Stein emitirá su decisión sobre si se debe permitir que el caso avance. Megan Gray, abogada y fundadora de GrayMatters Law & Policy, asistió a la audiencia en persona y señaló que Stein parecía estar “en esto por mucho tiempo” y era poco probable que lo descartara tan pronto.
“El juez Stein estaba comprometido y curioso, algo notable dada su edad y su falta de sofisticación técnica”, dijo Gray. “Él entendió los casos y las posiciones, además tiene control estricto sobre su sala del tribunal. Normalmente no proporciona una línea de audio para el público y el hecho de que lo haya hecho aquí indica que está muy familiarizado con la importancia del caso y su impacto en la sociedad”.
Noticias
Dentro de la carrera de Meta para vencer a OpenAI: “Necesitamos aprender a construir fronteras y ganar esta carrera”
Los mensajes, que formaban parte de una serie de pruebas reveladas por un tribunal de California, sugieren que Meta utilizó datos protegidos por derechos de autor cuando entrenó sus sistemas de inteligencia artificial y trabajó para ocultarlos, mientras corría para vencer a rivales como OpenAI y Mistral. Partes de los mensajes se revelaron por primera vez la semana pasada.
En un correo electrónico de octubre de 2023 al investigador de Meta AI Hugo Touvron, Ahmad Al-Dahle, vicepresidente de IA generativa de Meta, escribió que el objetivo de la compañía “debe ser GPT4”, refiriéndose al modelo de lenguaje grande OpenAI anunciado en marzo de 2023. Meta Teníamos que “aprender a construir fronteras y ganar esta carrera”, añadió Al-Dahle. Esos planes aparentemente involucraban al sitio de piratería de libros Library Genesis (LibGen) para entrenar sus sistemas de inteligencia artificial.
Un correo electrónico sin fecha del director de producto de Meta, Sony Theakanath, enviado a la vicepresidenta de investigación de IA, Joelle Pineau, sopesó si usar LibGen solo internamente, para los puntos de referencia incluidos en una publicación de blog o para crear un modelo entrenado en el sitio. En el correo electrónico, Theakanath escribe que “GenAI ha sido aprobado para usar LibGen para Llama3… con una serie de mitigaciones acordadas” después de escalarlo a “MZ”, presumiblemente el CEO de Meta, Mark Zuckerberg. Como se señala en el correo electrónico, Theakanath creía que “Libgen es esencial para cumplir con SOTA [state-of-the-art] números”, y agregó “se sabe que OpenAI y Mistral están utilizando la biblioteca para sus modelos (de boca en boca)”. Mistral y OpenAI no han declarado si utilizan o no LibGen. (El borde contacté a ambos para obtener más información).
Los documentos judiciales surgen de una demanda colectiva que el autor Richard Kadrey, la comediante Sarah Silverman y otros presentaron contra Meta, acusándola de utilizar contenido protegido por derechos de autor obtenido ilegalmente para entrenar sus modelos de IA, en violación de las leyes de propiedad intelectual. Meta, al igual que otras empresas de inteligencia artificial, ha argumentado que el uso de material protegido por derechos de autor en datos de entrenamiento debería constituir un uso legítimo y legal. El borde Se comunicó con Meta para solicitar comentarios, pero no recibió respuesta de inmediato.
Algunas de las “mitigaciones” para el uso de LibGen incluían estipulaciones de que Meta debía “eliminar los datos claramente marcados como pirateados/robados”, evitando al mismo tiempo citar externamente “el uso de cualquier dato de entrenamiento” del sitio. El correo electrónico de Theakanath también decía que la compañía necesitaría “equipar” los modelos de la compañía “para armas biológicas y CBRNE”. [Chemical, Biological, Radiological, Nuclear, and Explosives]“Riesgos.
El correo electrónico también repasaba algunos de los “riesgos políticos” que plantea el uso de LibGen, incluyendo cómo los reguladores podrían responder a la cobertura de los medios que sugiere el uso de contenido pirateado por parte de Meta. “Esto puede socavar nuestra posición negociadora con los reguladores sobre estos temas”, decía el correo electrónico. Una conversación de abril de 2023 entre el investigador de Meta Nikolay Bashlykov y el miembro del equipo de IA David Esiobu también mostró que Bashlykov admitió que “no está seguro de que podamos usar las IP de Meta para cargar torrents”. [of] contenido pirata”.
Otros documentos internos muestran las medidas que tomó Meta para ocultar la información de derechos de autor en los datos de entrenamiento de LibGen. Un documento titulado “observaciones sobre LibGen-SciMag” muestra los comentarios dejados por los empleados sobre cómo mejorar el conjunto de datos. Una sugerencia es “eliminar más encabezados de derechos de autor e identificadores de documentos”, lo que incluye cualquier línea que contenga “ISBN”, “Copyright”, “Todos los derechos reservados” o el símbolo de copyright. Otras notas mencionan eliminar más metadatos “para evitar posibles complicaciones legales”, así como considerar la posibilidad de eliminar la lista de autores de un artículo “para reducir la responsabilidad”.
El pasado mes de junio, Los New York Times informó sobre la frenética carrera dentro de Meta después del debut de ChatGPT, revelando que la compañía se había topado con un muro: había agotado casi todos los libros, artículos y poemas en inglés disponibles que pudo encontrar en línea. Desesperados por obtener más datos, los ejecutivos supuestamente discutieron la compra directa de Simon & Schuster y consideraron contratar contratistas en África para resumir libros sin permiso.
En el informe, algunos ejecutivos justificaron su enfoque señalando el “precedente de mercado” de OpenAI de utilizar obras protegidas por derechos de autor, mientras que otros argumentaron que la victoria judicial de Google en 2015 estableciendo su derecho a escanear libros podría proporcionar cobertura legal. “Lo único que nos impide ser tan buenos como ChatGPT es, literalmente, el volumen de datos”, dijo un ejecutivo en una reunión, según Los New York Times.
Se ha informado que laboratorios de vanguardia como OpenAI y Anthropic se han topado con un muro de datos, lo que significa que no tienen suficientes datos nuevos para entrenar sus grandes modelos de lenguaje. Muchos líderes lo han negado, el director ejecutivo de OpenAI, Sam Altman, dijo claramente: “No hay ningún muro”. El cofundador de OpenAI, Ilya Sutskever, que dejó la empresa en mayo pasado para iniciar un nuevo laboratorio de frontera, ha sido más directo sobre el potencial de un muro de datos. En una importante conferencia sobre IA el mes pasado, Sutskever dijo: “Hemos alcanzado el pico de datos y no habrá más. Tenemos que lidiar con los datos que tenemos. Sólo hay una Internet”.
Esta escasez de datos ha dado lugar a muchas formas nuevas y extrañas de obtener datos únicos. Bloomberg informó que laboratorios de vanguardia como OpenAI y Google han estado pagando a los creadores de contenido digital entre $ 1 y $ 4 por minuto por sus secuencias de video no utilizadas a través de un tercero para capacitar a los LLM (ambas compañías tienen productos de generación de video de IA de la competencia).
Dado que empresas como Meta y OpenAI esperan hacer crecer sus sistemas de inteligencia artificial lo más rápido posible, es probable que las cosas se pongan un poco complicadas. Aunque un juez desestimó parcialmente la demanda colectiva de Kadrey y Silverman el año pasado, las pruebas descritas aquí podrían fortalecer partes de su caso a medida que avanza en los tribunales.
Noticias
La IA Gemini de Google acaba de romper las reglas del procesamiento visual: esto es lo que eso significa para usted
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información
Gemini AI de Google ha trastocado silenciosamente el panorama de la inteligencia artificial, logrando un hito que pocos creían posible: el procesamiento simultáneo de múltiples flujos visuales en tiempo real.
Este avance, que permite a Gemini no solo ver videos en vivo sino también analizar imágenes estáticas simultáneamente, no se dio a conocer a través de las plataformas emblemáticas de Google. En cambio, surgió de una aplicación experimental llamada “AnyChat”.
Este salto imprevisto subraya el potencial sin explotar de la arquitectura de Gemini, ampliando los límites de la capacidad de la IA para manejar interacciones complejas y multimodales. Durante años, las plataformas de IA se han limitado a gestionar transmisiones de vídeo en directo o fotografías estáticas, pero nunca ambas a la vez. Con AnyChat, esa barrera se ha roto decisivamente.
“Ni siquiera el servicio pago de Gemini puede hacer esto todavía”, dice Ahsen Khaliq, líder de aprendizaje automático en Gradio y creador de AnyChat, en una entrevista exclusiva con VentureBeat. “Ahora puedes tener una conversación real con la IA mientras procesa tanto tu video en vivo como cualquier imagen que quieras compartir”.
Cómo Gemini de Google está redefiniendo silenciosamente la visión de la IA
El logro técnico detrás de la capacidad de transmisión múltiple de Gemini radica en su arquitectura neuronal avanzada, una infraestructura que AnyChat explota hábilmente para procesar múltiples entradas visuales sin sacrificar el rendimiento. Esta capacidad ya existe en la API de Gemini, pero no está disponible en las aplicaciones oficiales de Google para los usuarios finales.
Por el contrario, las demandas computacionales de muchas plataformas de IA, incluido ChatGPT, las limitan al procesamiento de un solo flujo. Por ejemplo, ChatGPT actualmente desactiva la transmisión de video en vivo cuando se carga una imagen. Incluso manejar una sola transmisión de video puede agotar los recursos, y mucho menos combinarla con el análisis de imágenes estáticas.
Las aplicaciones potenciales de este avance son tan transformadoras como inmediatas. Los estudiantes ahora pueden apuntar su cámara a un problema de cálculo mientras le muestran a Gemini un libro de texto como guía paso a paso. Los artistas pueden compartir trabajos en progreso junto con imágenes de referencia, recibiendo comentarios matizados y en tiempo real sobre la composición y la técnica.
La tecnología detrás del avance de la IA de flujo múltiple de Gemini
Lo que hace que el logro de AnyChat sea notable no es sólo la tecnología en sí, sino la forma en que elude las limitaciones del despliegue oficial de Gemini. Este avance fue posible gracias a las prestaciones especializadas de la API Gemini de Google, que permiten a AnyChat acceder a funciones que siguen ausentes en las propias plataformas de Google.
Al utilizar estos permisos ampliados, AnyChat optimiza los mecanismos de atención de Gemini para rastrear y analizar múltiples entradas visuales simultáneamente, todo mientras mantiene la coherencia conversacional. Los desarrolladores pueden replicar fácilmente esta capacidad usando unas pocas líneas de código, como lo demuestra el uso de Gradio por parte de AnyChat, una plataforma de código abierto para crear interfaces de aprendizaje automático.
Por ejemplo, los desarrolladores pueden lanzar su propia plataforma de video chat impulsada por Gemini con soporte para carga de imágenes utilizando el siguiente fragmento de código:
Esta simplicidad resalta cómo AnyChat no es solo una demostración del potencial de Gemini, sino un conjunto de herramientas para desarrolladores que buscan crear aplicaciones de IA personalizadas habilitadas para visión.
Lo que hace que el logro de AnyChat sea notable no es sólo la tecnología en sí, sino la forma en que elude las limitaciones del despliegue oficial de Gemini. Este avance fue posible gracias a asignaciones especializadas del equipo Gemini de Google, que permitieron a AnyChat acceder a funciones que permanecen ausentes en las propias plataformas de Google.
“La función de vídeo en tiempo real de Google AI Studio no puede manejar imágenes cargadas durante la transmisión”, dijo Khaliq a VentureBeat. “Ninguna otra plataforma ha implementado este tipo de procesamiento simultáneo en este momento”.
La aplicación experimental que desbloqueó las capacidades ocultas de Gemini
El éxito de AnyChat no fue un simple accidente. Los desarrolladores de la plataforma trabajaron estrechamente con la arquitectura técnica de Gemini para ampliar sus límites. Al hacerlo, revelaron un lado de Gemini que ni siquiera las herramientas oficiales de Google han explorado aún.
Este enfoque experimental permitió a AnyChat manejar transmisiones simultáneas de video en vivo e imágenes estáticas, rompiendo esencialmente la “barrera de la transmisión única”. El resultado es una plataforma que se siente más dinámica, intuitiva y capaz de manejar casos de uso del mundo real de manera mucho más efectiva que sus competidores.
Por qué el procesamiento visual simultáneo cambia las reglas del juego
Las implicaciones de las nuevas capacidades de Gemini van mucho más allá de las herramientas creativas y las interacciones casuales de IA. Imagine a un profesional médico mostrando a una IA los síntomas de un paciente en vivo y escaneos de diagnóstico históricos al mismo tiempo. Los ingenieros podían comparar el rendimiento del equipo en tiempo real con esquemas técnicos y recibir comentarios instantáneos. Los equipos de control de calidad podrían comparar la producción de la línea de producción con los estándares de referencia con una precisión y eficiencia sin precedentes.
En educación, el potencial es transformador. Los estudiantes pueden usar Gemini en tiempo real para analizar libros de texto mientras trabajan en problemas de práctica, recibiendo apoyo contextual que cierra la brecha entre entornos de aprendizaje estáticos y dinámicos. Para los artistas y diseñadores, la capacidad de mostrar múltiples aportaciones visuales simultáneamente abre nuevas vías para la colaboración y la retroalimentación creativa.
Qué significa el éxito de AnyChat para el futuro de la innovación en IA
Por ahora, AnyChat sigue siendo una plataforma de desarrollo experimental, que opera con límites de velocidad ampliados otorgados por los desarrolladores de Gemini. Sin embargo, su éxito demuestra que la visión simultánea de múltiples flujos de IA ya no es una aspiración lejana: es una realidad presente, lista para su adopción a gran escala.
La aparición de AnyChat plantea preguntas provocativas. ¿Por qué el lanzamiento oficial de Gemini no incluyó esta capacidad? ¿Es un descuido, una elección deliberada en la asignación de recursos o una indicación de que desarrolladores más pequeños y ágiles están impulsando la próxima ola de innovación?
A medida que se acelera la carrera de la IA, la lección de AnyChat es clara: es posible que los avances más significativos no siempre provengan de los crecientes laboratorios de investigación de los gigantes tecnológicos. En cambio, pueden provenir de desarrolladores independientes que ven potencial en las tecnologías existentes y se atreven a impulsarlas más.
Ahora que la innovadora arquitectura de Gemini ha demostrado ser capaz de procesar múltiples flujos, el escenario está preparado para una nueva era de aplicaciones de IA. Aún es incierto si Google incorporará esta capacidad a sus plataformas oficiales. Sin embargo, una cosa está clara: la brecha entre lo que la IA puede hacer y lo que hace oficialmente se ha vuelto mucho más interesante.
-
Startups8 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos8 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Recursos8 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Recursos8 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Tutoriales8 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Estudiar IA8 meses ago
Curso de Inteligencia Artificial de UC Berkeley estratégico para negocios
-
Startups6 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Eventos8 meses ago
La nueva era de la inteligencia artificial por el Washington Post – Mayo 2024