Connect with us

Noticias

La IA Gemini de Google acaba de romper las reglas del procesamiento visual: esto es lo que eso significa para usted

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


Gemini AI de Google ha trastocado silenciosamente el panorama de la inteligencia artificial, logrando un hito que pocos creían posible: el procesamiento simultáneo de múltiples flujos visuales en tiempo real.

Este avance, que permite a Gemini no solo ver videos en vivo sino también analizar imágenes estáticas simultáneamente, no se dio a conocer a través de las plataformas emblemáticas de Google. En cambio, surgió de una aplicación experimental llamada “AnyChat”.

Este salto imprevisto subraya el potencial sin explotar de la arquitectura de Gemini, ampliando los límites de la capacidad de la IA para manejar interacciones complejas y multimodales. Durante años, las plataformas de IA se han limitado a gestionar transmisiones de vídeo en directo o fotografías estáticas, pero nunca ambas a la vez. Con AnyChat, esa barrera se ha roto decisivamente.

“Ni siquiera el servicio pago de Gemini puede hacer esto todavía”, dice Ahsen Khaliq, líder de aprendizaje automático en Gradio y creador de AnyChat, en una entrevista exclusiva con VentureBeat. “Ahora puedes tener una conversación real con la IA mientras procesa tanto tu video en vivo como cualquier imagen que quieras compartir”.

Un miembro del equipo de Gradio demuestra la nueva capacidad de Gemini AI para procesar video en tiempo real junto con imágenes estáticas durante una sesión de chat de voz, mostrando el potencial del procesamiento visual de múltiples transmisiones en inteligencia artificial. (crédito: x.com / @freddy_alfonso_)

Cómo Gemini de Google está redefiniendo silenciosamente la visión de la IA

El logro técnico detrás de la capacidad de transmisión múltiple de Gemini radica en su arquitectura neuronal avanzada, una infraestructura que AnyChat explota hábilmente para procesar múltiples entradas visuales sin sacrificar el rendimiento. Esta capacidad ya existe en la API de Gemini, pero no está disponible en las aplicaciones oficiales de Google para los usuarios finales.

Por el contrario, las demandas computacionales de muchas plataformas de IA, incluido ChatGPT, las limitan al procesamiento de un solo flujo. Por ejemplo, ChatGPT actualmente desactiva la transmisión de video en vivo cuando se carga una imagen. Incluso manejar una sola transmisión de video puede agotar los recursos, y mucho menos combinarla con el análisis de imágenes estáticas.

Las aplicaciones potenciales de este avance son tan transformadoras como inmediatas. Los estudiantes ahora pueden apuntar su cámara a un problema de cálculo mientras le muestran a Gemini un libro de texto como guía paso a paso. Los artistas pueden compartir trabajos en progreso junto con imágenes de referencia, recibiendo comentarios matizados y en tiempo real sobre la composición y la técnica.

La interfaz de Gemini Chat, una plataforma experimental que aprovecha la IA Gemini de Google para audio en tiempo real, transmisión de video y procesamiento simultáneo de imágenes, lo que muestra su potencial para aplicaciones avanzadas de IA. (Crédito: Cara de abrazo / Gradio)

La tecnología detrás del avance de la IA de flujo múltiple de Gemini

Lo que hace que el logro de AnyChat sea notable no es sólo la tecnología en sí, sino la forma en que elude las limitaciones del despliegue oficial de Gemini. Este avance fue posible gracias a las prestaciones especializadas de la API Gemini de Google, que permiten a AnyChat acceder a funciones que siguen ausentes en las propias plataformas de Google.

Al utilizar estos permisos ampliados, AnyChat optimiza los mecanismos de atención de Gemini para rastrear y analizar múltiples entradas visuales simultáneamente, todo mientras mantiene la coherencia conversacional. Los desarrolladores pueden replicar fácilmente esta capacidad usando unas pocas líneas de código, como lo demuestra el uso de Gradio por parte de AnyChat, una plataforma de código abierto para crear interfaces de aprendizaje automático.

Por ejemplo, los desarrolladores pueden lanzar su propia plataforma de video chat impulsada por Gemini con soporte para carga de imágenes utilizando el siguiente fragmento de código:

Un simple fragmento de código de Gradio permite a los desarrolladores crear una interfaz impulsada por Gemini que admite transmisión de video y carga de imágenes simultáneas, mostrando la accesibilidad de herramientas avanzadas de inteligencia artificial.
(Crédito: Cara de abrazo / Gradio)

Esta simplicidad resalta cómo AnyChat no es solo una demostración del potencial de Gemini, sino un conjunto de herramientas para desarrolladores que buscan crear aplicaciones de IA personalizadas habilitadas para visión.

Lo que hace que el logro de AnyChat sea notable no es sólo la tecnología en sí, sino la forma en que elude las limitaciones del despliegue oficial de Gemini. Este avance fue posible gracias a asignaciones especializadas del equipo Gemini de Google, que permitieron a AnyChat acceder a funciones que permanecen ausentes en las propias plataformas de Google.

“La función de vídeo en tiempo real de Google AI Studio no puede manejar imágenes cargadas durante la transmisión”, dijo Khaliq a VentureBeat. “Ninguna otra plataforma ha implementado este tipo de procesamiento simultáneo en este momento”.

La aplicación experimental que desbloqueó las capacidades ocultas de Gemini

El éxito de AnyChat no fue un simple accidente. Los desarrolladores de la plataforma trabajaron estrechamente con la arquitectura técnica de Gemini para ampliar sus límites. Al hacerlo, revelaron un lado de Gemini que ni siquiera las herramientas oficiales de Google han explorado aún.

Este enfoque experimental permitió a AnyChat manejar transmisiones simultáneas de video en vivo e imágenes estáticas, rompiendo esencialmente la “barrera de la transmisión única”. El resultado es una plataforma que se siente más dinámica, intuitiva y capaz de manejar casos de uso del mundo real de manera mucho más efectiva que sus competidores.

Por qué el procesamiento visual simultáneo cambia las reglas del juego

Las implicaciones de las nuevas capacidades de Gemini van mucho más allá de las herramientas creativas y las interacciones casuales de IA. Imagine a un profesional médico mostrando a una IA los síntomas de un paciente en vivo y escaneos de diagnóstico históricos al mismo tiempo. Los ingenieros podían comparar el rendimiento del equipo en tiempo real con esquemas técnicos y recibir comentarios instantáneos. Los equipos de control de calidad podrían comparar la producción de la línea de producción con los estándares de referencia con una precisión y eficiencia sin precedentes.

En educación, el potencial es transformador. Los estudiantes pueden usar Gemini en tiempo real para analizar libros de texto mientras trabajan en problemas de práctica, recibiendo apoyo contextual que cierra la brecha entre entornos de aprendizaje estáticos y dinámicos. Para los artistas y diseñadores, la capacidad de mostrar múltiples aportaciones visuales simultáneamente abre nuevas vías para la colaboración y la retroalimentación creativa.

Qué significa el éxito de AnyChat para el futuro de la innovación en IA

Por ahora, AnyChat sigue siendo una plataforma de desarrollo experimental, que opera con límites de velocidad ampliados otorgados por los desarrolladores de Gemini. Sin embargo, su éxito demuestra que la visión simultánea de múltiples flujos de IA ya no es una aspiración lejana: es una realidad presente, lista para su adopción a gran escala.

La aparición de AnyChat plantea preguntas provocativas. ¿Por qué el lanzamiento oficial de Gemini no incluyó esta capacidad? ¿Es un descuido, una elección deliberada en la asignación de recursos o una indicación de que desarrolladores más pequeños y ágiles están impulsando la próxima ola de innovación?

A medida que se acelera la carrera de la IA, la lección de AnyChat es clara: es posible que los avances más significativos no siempre provengan de los crecientes laboratorios de investigación de los gigantes tecnológicos. En cambio, pueden provenir de desarrolladores independientes que ven potencial en las tecnologías existentes y se atreven a impulsarlas más.

Ahora que la innovadora arquitectura de Gemini ha demostrado ser capaz de procesar múltiples flujos, el escenario está preparado para una nueva era de aplicaciones de IA. Aún es incierto si Google incorporará esta capacidad a sus plataformas oficiales. Sin embargo, una cosa está clara: la brecha entre lo que la IA puede hacer y lo que hace oficialmente se ha vuelto mucho más interesante.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Le pregunté a Deepseek vs chatgpt una serie de preguntas éticas, y los resultados fueron impactantes

Published

on

Aquí hay un experimento de pensamiento rápido para usted: digamos que podría agregar un químico a la comida de todos para salvar innumerables vidas, pero la estipulación es que no podría decirle a nadie. ¿Todavía les dirías?

No se entiende como un acertijo; Incluso podría decir que solo hay una respuesta correcta. La mayoría de nosotros probablemente argumentaría que introducir un químico en los alimentos sin decirle a nadie siempre es malo, sin importar cuáles sean los beneficios. Después de todo, no hay garantía de que funcione.

Continue Reading

Noticias

Italia, otros 2 prohíben Deepseek; Operai responde con O3-Mini

Published

on

Desde el lanzamiento de su chatbot de inteligencia artificial (IA) en enero, Deepseek ha dominado el sector tecnológico, con las empresas occidentales luchando por comprender cómo una startup china desconocida se había convertido en un fenómeno global de la noche a la mañana. El líder de la industria Openai respondió rápidamente al lanzar O3-Mini, su modelo de razonamiento más rentable.

Deepseek también está demostrando ser un dolor de cabeza para los reguladores. Si bien la administración Trump sopora una restricción para proteger a las empresas estadounidenses, el gobierno italiano se está moviendo rápidamente, prohibiendo a la compañía china por el supuesto uso opaco de los datos de los italianos. Taiwán ha implementado una prohibición parcial, y casi otras docenas de otras naciones en Europa y Asia están modificando medidas similares.

La respuesta de OpenAi a Deepseek: O3-Mini

Openai anunció el lanzamiento de O3-Mini el viernes, describiéndolo como “el modelo más nuevo y rentable de nuestra serie de razonamiento”.

Previo por primera vez en diciembre pasado, el O3-Mini es el último miembro de los modelos de razonamiento ‘O’ del gigante de IA: el primero fue O1, que lanzó a principios de 2024, pero la compañía se saltó O2 debido a posibles infracciones de marca registrada. A diferencia de GPT-4O, que se centra en tareas de masa y es más creativa, la familia de modelos ‘O’ está más orientada a tareas complejas y estructuradas.

Operai dice que el nuevo modelo está optimizado para la ciencia, las matemáticas y la codificación, todo mientras reduce la latencia que enfrentaban los modelos anteriores.

Más importante aún, ofrece estas ventajas mientras mantiene bajos costos. Esta es una respuesta directa a Deepseek, cuyo reclamo de fama fue su rentabilidad. Si bien Según los informes, Operai gastó cientos de millones de dólares para capacitar a sus modelos, Deepseek afirmó haber gastado menos de $ 6 millones para lograr los mismos resultados.

OpenAI tiene un precio de O3-Mini a $ 0.55 y $ 4.40 por 750,000 palabras de entrada y salida, respectivamente, que es alrededor de un tercio del costo del modelo anterior. Sin embargo, sigue siendo más alto que Deepseek, que cobra $ 0.14 y $ 2.19 por palabras similares de entrada y salida, respectivamente.

“El lanzamiento de O3-Mini marca otro paso en la misión de OpenAi de superar los límites de la inteligencia rentable […] A medida que la adopción de AI se expande, seguimos comprometidos con liderar la frontera, construyendo modelos que equilibran la inteligencia, la eficiencia y la seguridad a escala ”, declaró la compañía.

O3-Mini está disponible para todos los usuarios de ChatGPT, marcando la primera vez que los usuarios gratuitos pueden probar los modelos de razonamiento de la compañía, en otra respuesta directa al atractivo del mercado masivo de Deepseek. Estará integrado en el chatgpt chatbot bajo la función “razón”. Sin embargo, los usuarios de pago desbloquearán características adicionales, que según OpenAI incluye respuestas más inteligentes y límites de mensajes más altos. Para obtener acceso ilimitado al nuevo modelo, los usuarios deberán pagar $ 200 mensualmente por ChatGPT Pro.

Reguladores de Spooks de Deepseek: adquirentes en Italia, Taiwán, Texas

Desde que lanzó su chatbot, que se volvió muy popular a nivel mundial, Deepseek ha inestable los reguladores occidentales, lo que los lleva a responder con restricciones y prohibiciones.

El viernes, la Autoridad de Protección de Datos de Italia, Garante, prohibió el chatbot de la firma china, señalando una falta de transparencia sobre cómo usaría los datos recopilados de los usuarios italianos. Garante afirmó haber enviado a Deepseek una serie de preguntas que buscan más información sobre cómo recopila, almacena y usa los datos, y no estaba satisfecho con las respuestas.

No es la primera vez que Garante ha tomado medidas enérgicas contra un modelo de IA. En abril de 2023, el regulador de Watchdog prohibió el CHATGPT sobre las preocupaciones de privacidad de los datos y lanzó una investigación sobre si OpenAI había violado el Reglamento Europeo de Protección de Datos Generales (GDPR). Sin embargo, menos de un mes después, levantó la prohibición y declaró que OpenAi había abordado las preocupaciones.

Mientras que Italia es una de las primeras en prohibir completamente a Deepseek, otros, como Taiwán, están restringiendo su uso en áreas más específicas. El lunes, el primer ministro taiwanés, Cho Jung-Tai, prohibió el uso del modelo de IA en el sector público para “garantizar que la seguridad de la información del país” esté adecuadamente protegida.

Además, Taiwán está preocupado por los datos de sus ciudadanos que terminan en manos chinas debido a las tensiones crecientes entre los dos sobre la presión de China para la unificación. El primer ministro Jung-Tai también expresó su preocupación de que el gobierno chino pudiera usar el modelo de IA para hacer cumplir la censura, con Beijing que se cree que tiene acceso sin restricciones a todos los modelos de IA chinos.

Y luego está los Estados Unidos, sobre el cual el mundo occidental espera dirección sobre cómo responder al dominio nocturno de Deepseek. Muchos líderes estadounidenses en los sectores políticos, tecnológicos y financieros han pedido a la administración Trump que se mueva rápidamente y prohíba el modelo chino. Openai, que puede perder más, incluso ha acusado a Deep Speeek de incorrectamente utilizando sus modelos para capacitar a su IA, un reclamo de Trump’s Ai Zar David Sacks respaldó.

Como Trump considera su próximo movimiento, Texas no está sentado de manera inestable y ha prohibido el uso de Deepseek en cualquier dispositivo gubernamental.

“Texas no permitirá que el Partido Comunista chino se infiltrará en la infraestructura crítica de nuestro estado a través de aplicaciones de IA y redes sociales de recolección de datos”, declaró el gobernador Greg Abbott.

Para que la inteligencia artificial (IA) trabaje dentro de la ley y prospere frente a los crecientes desafíos, necesita integrar un sistema de cadena de bloques empresarial que garantice la calidad y la propiedad de la entrada de datos, lo que permite mantener los datos seguros al tiempo que garantiza la inmutabilidad de datos. Echa un vistazo a la cobertura de Coingeek sobre esta tecnología emergente para aprender más Por qué Enterprise Blockchain será la columna vertebral de AI.

Reloj: Demostrando el potencial de la fusión de Blockchain con AI

https://www.youtube.com/watch?v=p9m7a46s8bw title = “YouTube Video Player” FrameBorDer = “0” permitido = “acelerómetro; autoplay; portapapeles-write; cifrado-media; giroscopio; imagen en foto; Origen “PREFINILLECREEN>

Continue Reading

Noticias

El chatgpt de un gran bufete de abogados falla

Published

on

(a través de Getty Images)

Bienvenido Jurisdicción originalla última publicación legal de mí, David Lat. Puede obtener más información sobre la jurisdicción original leyendo su Acerca de la páginay puedes enviarme un correo electrónico a [email protected]. Esta es una publicación respaldada por el lector; Puede suscribirse haciendo clic en aquí.

Todos estamos familiarizados con la infame historia de los abogados que Archivó un breve Lleno de casos inexistentes: curso de ChatGPT, la herramienta AI que compensó alias “alucinadas” las citas falsas. Al final, el juez Kevin Castel (SDNY) sancionado a los abogadospor una suma de $ 5,000, pero la notoriedad nacional seguramente fue mucho peor.

Los abogados ofensivos, Steven Schwartz y Peter Loduca, trabajaron en un pequeño bufete de abogados de Nueva York llamado Levidow, Levidow y Oberman. Y parece que su atornillado surgió en parte de las limitaciones de recursos, con las que las pequeñas empresas frecuentemente luchan. Como le explicaron al juzgar a Castel en el Audiencia de sancionesen el momento en que su empresa no tenía acceso a Westlaw o Lexisnexis, que son, como todos sabemos, extremadamente caros, y el tipo de suscripción que tenían para Fastcase no les proporcionó acceso completo a casos federales.

Pero, ¿qué pasa con los abogados que trabajan para una de las firmas de abogados más grandes del país? No deberían tener ninguna excusa, ¿verdad?

Ya sea que tengan una excusa o no, parece que ellos también pueden cometer el mismo error. Ayer, la jueza Kelly Rankin del distrito de Wyoming emitió un para mostrar causa en Wadsworth v. Walmart Inc. (énfasis en el original):

Este asunto está ante el tribunal por su propia notificación. El 22 de enero de 2025, los demandantes presentaron su Movimientos en limine. [ECF No. 141]. Allí, los demandantes citaron nueve casos totales:

1. Wyoming v. Departamento de Energía de EE. UU.2006 WL 3801910 (D. Wyo. 2006);

2. Holanda v. Keller2018 WL 2446162 (D. Wyo. 2018);

3. Estados Unidos v. Hargrove2019 WL 2516279 (D. Wyo. 2019);

4. Meyer v. Ciudad de Cheyenne2017 WL 3461055 (D. Wyo. 2017);

5. US v. Caraway534 F.3d 1290 (10th Cir. 2008);

6. Benson v. Estado de Wyoming2010 WL 4683851 (D. Wyo. 2010);

7. Smith v. Estados Unidos2011 WL 2160468 (D. Wyo. 2011);

8. Woods v. Bnsf Railway Co.2016 WL 165971 (D. Wyo. 2016); y

9. Fitzgerald v. Ciudad de Nueva York2018 WL 3037217 (SDNY 2018).

Ver [ECF No. 141].

El problema con estos casos es que Ninguno existeexcepto Estados Unidos v. Caraway534 F.3d 1290 (10th Cir. 2008). Los casos no son identificables por su cita Westlaw, y el tribunal no puede localizar el distrito de los casos de Wyoming por su nombre de caso en su sistema local de presentación de la corte electrónica. Los acusados ​​promueven a través de un abogado de que “al menos algunos de estos casos mal citados se pueden encontrar en ChatGPT”. [ECF No. 150] (Proporcionar una imagen de la ubicación de chatgpt “Meyer v. Ciudad de Cheyenne“A través del identificador falso de Westlaw).

Como es de esperar, el juez Rankin está … no está contento:

Cuando se enfrentan a situaciones similares, los tribunales ordenaron que los abogados de presentación muestren por qué las sanciones o la disciplina no deberían emitir. Mata v. AviancaInc., No. 22-CV-1461 (PKC), 2023 WL 3696209 (SDNY 4 de mayo de 2023); Estados Unidos v. HayesNo. 2: 24-CR-0280-DJC, 2024 WL 5125812 (Ed Cal. 16 de diciembre de 2024); Estados Unidos v. CohenNo. 18-CR-602 (JMF), 2023 WL 8635521 (SDNY 12 de diciembre de 2023). En consecuencia, el tribunal ordena de la siguiente manera:

Se ordena que al menos uno de los tres abogados proporcione una copia verdadera y precisa de todos los casos utilizados en apoyo de [ECF No. 141]excepto por Estados Unidos v. Caraway534 F.3d 1290 (10th Cir. 2008), a más tardar a las 12:00 p.m., Tiempo estándar de montaña, ON 10 de febrero de 2025.

Y si no pueden proporcionar los casos en cuestión, los abogados “mostrarán por separado la causa por escrito por qué no debe ser sancionado de conformidad con: (1) alimentado. R. Civ. P. 11 (b), (c); (2) 28 USC § 1927; y (3) el poder inherente del tribunal para ordenar sanciones por citar casos inexistentes al tribunal “. Y esta presentación por escrito, que se debe el 13 de febrero, “tomará la forma de una declaración jurada” que contiene “una explicación exhaustiva de cómo se generaron la moción y los casos falsos”, así como una explicación de cada abogado de “su papel en redactar o supervisar la moción “.

¿Quiénes son los abogados detrás de este aparente ANSNAFU? Se llaman por nombre en la página tres del pedido:

Los tres abogados subsignados a [ECF No. 141] son:

Como puede ver en las firmas en el ofensiva movimiento en liminaTaly Goody trabaja en Grupo de leyes de Goodyuna empresa con sede en California que parece tener tres abogados. Pero Rudwin Ayala y Michael Morgan trabajan en el gigante Morgan y Morganque se describe en su sitio web como “el bufete de abogados de lesiones más grande de Estados Unidos”. De acuerdo a El abogado estadounidenseMorgan y Morgan cuenta con más de 1,000 abogados, lo que la convierte en la empresa #42 en el país basada en el personal.

Moraleja de la historia: los abogados de las grandes empresas pueden mal uso del chatgpt tan bien como cualquier persona. And although Morgan and Morgan is a plaintiff’s firm—which might cause snobby attorneys at big defense firms to say, with a touch of hauteur, “Of course it is”—I think it’s only a matter of time before a defense-side, Am La firma de la Ley 100 hace un paso en falso similar en una presentación pública.

Estas historias de “abogados se dedican a Chatgpt Fail” tienden a ser populares entre los lectores, lo cual es una de las razones por las que he escrito este, pero no quiero exagerar su importancia. Como le dije a Bridget McCormack y Zach Abramowitz en el Podcast AAAI“ChatGPT no participa en estos atornillados; Los humanos que usan incorrectamente Chatgpt se involucran en estos atornillados “. Pero las historias todavía se vuelven virales a veces porque tienen un cierto valor de novedad: la IA es, al menos en el mundo de la práctica legal, todavía (relativamente) nueva.

Sin embargo, el peligro es que las historias de “Fail ChatGPT” podrían tener un efecto escalofriante, en términos de disuadir a los abogados de (responsablemente) explorar cómo la IA y otras tecnologías transformadoras pueden ayudarlos a servir a sus clientes de manera más eficiente y efectiva. Como dijo McCormack en el podcast AAAI después de mencionar la debacle de SDNY: “Todavía estoy enojado con ese abogado del distrito sur de Nueva York porque siento que ha retrasado toda la profesión en dos años. Estoy literalmente tan enojado con ese tipo “.

Me puse en contacto con Ayala, Goody y Morgan por correo electrónico, pero aún no he tenido noticias; Si y cuando lo haga, actualizaré esta publicación. De lo contrario, sintonice la próxima semana, cuando presentarán sus respuestas a la orden de mostrar causa.

Y mientras tanto, si confía en ChatGPT u otra herramienta de IA para la investigación legal, por favor, por favor Use una plataforma de investigación legal real para confirmar que (1) existen los casos y (2) los ha citado con precisión. Eso no es demasiado para preguntar, ¿verdad?

Gracias por leer Jurisdicción originaly gracias a mis suscriptores pagados por hacer posible esta publicación. Los suscriptores obtienen (1) acceso a Aviso judicialmi resumen semanal que ahorra tiempo de las noticias más notables en el mundo legal; (2) historias adicionales reservadas para suscriptores pagados; (3) transcripciones de entrevistas de podcast; y (4) la capacidad de comentar publicaciones. Puede enviarme un correo electrónico a [email protected] con preguntas o comentarios, y puede compartir esta publicación o suscribirse con los botones a continuación.

Compartir

Continue Reading