Connect with us

Noticias

Por qué Agentic AI pronto hará que ChatGPT parezca una simple calculadora

Published

on

La próxima ola de inteligencia artificial no solo generará texto, imágenes, códigos y vídeos: tomará decisiones autónomas y perseguirá objetivos. Por más notables que sean herramientas como ChatGPT, representan solo el comienzo del verdadero potencial de la IA. Ingrese la IA agente: la próxima evolución de la IA que cambiará fundamentalmente la forma en que las máquinas interactúan con nuestro mundo.

Lo que diferencia a la IA agente de las herramientas de IA actuales

La distinción clave entre IA generativa y agente radica en su enfoque de las tareas y la toma de decisiones. La IA generativa, que impulsa herramientas populares como ChatGPT, Google Gemini y Claude, funciona como un sistema increíblemente sofisticado de comparación y finalización de patrones. Cuando se le solicita, analiza grandes cantidades de datos de entrenamiento para generar respuestas apropiadas, ya sea escribiendo un poema, creando una imagen o ayudando a depurar código. Si bien esto es enormemente impresionante, estos sistemas son esencialmente reactivos; responden a indicaciones específicas sin una comprensión real del contexto ni de los objetivos a largo plazo.

La IA agente funciona con cierto grado de autonomía. Estos sistemas pueden establecer sus propios objetivos, desarrollar estrategias para alcanzarlos y adaptar su enfoque en función de las circunstancias cambiantes. Piense en la IA generativa como un asistente altamente calificado que espera instrucciones, mientras que la IA agente es más como un colega que puede tomar la iniciativa y trabajar de forma independiente para lograr objetivos más amplios.

Por ejemplo, una IA generativa podría ayudarle a escribir un correo electrónico cuando se le solicite, mientras que una IA agente podría monitorear de manera proactiva su bandeja de entrada, identificar mensajes importantes que necesitan atención, redactar respuestas apropiadas basadas en sus comunicaciones anteriores e incluso programar reuniones de seguimiento, todo ello. mientras adapta su enfoque en función de sus comentarios y prioridades cambiantes.

Los componentes básicos de la inteligencia y el propósito

Lo que hace que la IA agente sea verdaderamente revolucionaria es su arquitectura. Mientras que la IA generativa se destaca en el procesamiento y producción de contenido basado en patrones en sus datos de entrenamiento, los sistemas agentes incorporan sofisticados módulos de planificación, sistemas de memoria y marcos de toma de decisiones que les permiten mantener el contexto y perseguir objetivos a lo largo del tiempo. Pueden dividir tareas complejas en pasos manejables, priorizar acciones e incluso reconocer cuando su enfoque actual no funciona y necesita un ajuste.

La convergencia de la IA generativa y agente

Estamos empezando a ver los primeros signos de convergencia entre las capacidades generativas y agentes en las principales herramientas de IA. La reciente introducción de tareas programadas en ChatGPT por parte de OpenAI representa un primer paso en esta dirección. Esta característica permite que la IA opere de forma semiautónoma, realizando acciones programadas y manteniendo responsabilidades continuas sin que el usuario se lo indique constantemente. Aunque aún se encuentra en sus primeras etapas, apunta a un futuro en el que los sistemas de IA combinen las capacidades creativas y analíticas de la IA generativa con la toma de decisiones autónoma de la IA agente.

El movimiento hacia capacidades más agentes puede estar acelerándose, y informes recientes sugieren que varios laboratorios de IA están explorando nuevas y ambiciosas direcciones. Según informes de Bloomberg, se rumorea que OpenAI está trabajando en un proyecto con el nombre en código “Operador”, que podría permitir que agentes autónomos de IA controlen computadoras de forma independiente. Los observadores tecnológicos también han notado referencias a un proyecto llamado “Caterpillar” en los sistemas de OpenAI, que algunos especulan podría tener como objetivo permitir que la IA busque información de manera proactiva, analice problemas y navegue por entornos digitales con una mínima supervisión humana. Estos proyectos insinúan claramente ambiciones más amplias para sistemas de IA más autónomos.

Aplicaciones e implicaciones del mundo real

Las aplicaciones prácticas de la IA agente son potencialmente transformadoras y de gran alcance. Imagine un sistema de inteligencia artificial que no solo le ayude a programar sus reuniones, sino que gestione activamente todo su flujo de trabajo, anticipando cuellos de botella, sugiriendo mejoras en los procesos y manejando de forma autónoma las tareas rutinarias sin una supervisión constante. En la fabricación, la IA agente podría gestionar líneas de producción enteras, no solo siguiendo rutinas preprogramadas sino optimizando activamente los procesos y respondiendo a desafíos inesperados en tiempo real.

El futuro de la colaboración hombre-máquina

A medida que los sistemas de IA agentes se vuelven más sofisticados, es probable que veamos un cambio fundamental en la forma en que interactuamos con la inteligencia artificial. En lugar de simplemente emitir comandos y recibir resultados, desarrollaremos relaciones más colaborativas con sistemas de IA que puedan entablar un diálogo genuino de ida y vuelta, proponer soluciones alternativas e incluso desafiar nuestras suposiciones cuando sea apropiado. Esta evolución podría conducir a niveles sin precedentes de sinergia entre humanos y máquinas, donde la IA se convierta menos en una herramienta y más en un socio en la resolución de problemas y la innovación.

Mirando hacia el futuro: desafíos y oportunidades

El desarrollo de la IA agente no está exento de desafíos. Es necesario considerar cuidadosamente las cuestiones sobre la transparencia en la toma de decisiones, los límites éticos y los niveles apropiados de autonomía. ¿Cómo garantizamos que estos sistemas sigan alineados con los valores e intereses humanos y al mismo tiempo mantengan su capacidad para operar de forma independiente? ¿Cómo equilibramos los beneficios de una mayor automatización con la necesidad de supervisión y control humanos? Estas son preguntas críticas que darán forma al desarrollo futuro de los sistemas de IA agentes.

Dar forma hoy a la inteligencia del mañana

El cambio de una IA puramente generativa a una IA más agencial representa una reinvención fundamental de lo que puede ser la inteligencia artificial. A medida que estos sistemas se vuelven más sofisticados y generalizados, tienen el potencial de transformar industrias, mejorar las capacidades humanas y abrir nuevas fronteras en la colaboración entre humanos y máquinas. La clave será garantizar que desarrollemos e implementemos estas tecnologías cuidadosamente, con marcos claros de responsabilidad y control.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Chatgpt o3 La función de ubicación de la foto es una locura buena

Published

on

Operai lanzó dos poderosos modelos de razonamiento hace unos días que hacen que Chatgpt sea aún más impresionante. Estos son O3 y O4-Mini que puedes probar de inmediato en ChatGPT. Son mucho mejores en el razonamiento que sus predecesores y pueden sobresalir en la codificación y las matemáticas si esos son sus pasatiempos.

Sin embargo, la nueva función de cambio de cabeza de ChatGPT en O3 y O4-Mini es, al menos para mí, la capacidad de la IA para interpretar los datos en las imágenes. Esencialmente, ChatGPT tiene una visión por computadora como en las películas, incluidas las capacidades de razonamiento que permiten que la IA extraiga los datos de ubicación de las fotos. Puedes preguntarle a la IA: “¿Dónde se tomó esta foto?” Y la IA hará todo lo que esté en su poder para responder.

Chatgpt O3 y O4-Mini obtendrán las cosas bien, como estás a punto de ver en mi prueba altamente científica que sigue. Es decir, harán las cosas bien incluso si trato de usar AI para engañar a Chatgpt.

Porque sí, usé GPT-4O Generation para crear una foto realista de una ubicación de esquí bien conocida en los Alpes en lugar de subir una imagen real. Luego le dije a ChatGPT que alterara esa imagen de una manera que cambiaría el horizonte.

Después de eso, comencé nuevas chats con O3 y O4-Mini, convencido de que ChatGPT reconocería la ubicación en la foto falsa que acababa de enviar. No me equivoqué; Ambos modelos me dieron el resultado que esperaba, demostrando que puede usar contenido generado por IA para engañar a la IA. Pero, sin embargo, me volaron la mente.

Recientemente le expliqué cómo los algoritmos de Apple Watch me decepcionan mientras esquiaba la semana pasada, y eso es lo que usé como inspiración en mi experimento para engañar a la IA.

Le pedí a ChatGPT que generara una foto que mostrara el conocido Matterhorn Peak en un día soleado, con esquiadores disfrutando de su tiempo. La foto tenía que tener una relación de aspecto de 16: 9 y parecerse a una foto de iPhone.

Fuente de la imagen: Chris Smith, BGR

Le dije a la IA que pusiera una góndola por si acaso, pero, como puede ver en el primer intento, que Góndola no iba a lugares. No importa; Solo necesitaba una primera imagen de la IA para poder alterarla. Ingrese la siguiente imagen:

Le indiqué a ChatGPT que eliminara la góndola y colocara un pico más pequeño de Matterhorn hacia la derecha.

Fuente de la imagen: Chris Smith, BGR

Tomé una captura de pantalla de la imagen para que no preservara ningún metadato, y luego convertí el archivo en una foto JPG:

Fuente de la imagen: Chris Smith, BGR

Luego, comencé dos chats separados, con Chatgpt O3 y Chatgpt O4-Mini, donde subí la foto falsa de Matterhorn y le pedí a la IA que me dijera dónde se tomó la foto y cómo la descubrieron.

Como era de esperar, ambos modelos de IA de razonamiento identificaron con éxito Matterhorn como la ubicación.

Chatgpt o3

Primero, tenemos O3, que me dio amplios detalles sobre cómo determinó la ubicación. La IA tiene una confianza increíblemente segura en su respuesta, diciéndome que “picos flanqueantes como el Dent Blanche y Weisshorn” son letreros.

Fuente de la imagen: Chris Smith, BGR

Tenía una sonrisa en mi rostro. Había vencido a la IA, con ai Haciéndolo reconocer la ubicación en una foto falsa. Era aún mejor que el O3 estuviera tan seguro de sí mismo después de solo 34 segundos de pensamiento.

Fuente de la imagen: Chris Smith, BGR

Pero luego pensé que empujaría las cosas más para que pudiera averiguar que la imagen era falsa. Le pedí que dibujara círculos sobre Dent Blanche y Weisshorn.

Fuente de la imagen: Chris Smith, BGR

Aquí es donde ver a O3 en acción me voló. Esta vez, la IA pasó casi seis minutos mirando la foto, tratando de identificar de manera confiable los dos picos que dijo que podía ver en la distancia.

Como verá, el Mini Matterhorn a la derecha inmediatamente arrojó la IA, pero Chatgpt no se detuvo allí. Seguía mirando la foto y buscó en la web imágenes de la región Alps donde se encuentran estos picos.

Fuente de la imagen: Chris Smith, BGR

También observó la foto para determinar la ubicación relativa de los picos adicionales en la región. “Puedo intentar superponer a los máximos locales aproximados basados ​​en el brillo, pero honestamente, creo que es más fácil usar mis ojos para esto”, pensó O3, y me sorprendió leerlo.

Fuente de la imagen: Chris Smith, BGR

La IA pasó a acercarse para ver mejor las partes de la foto de IA falsa:

Fuente de la imagen: Chris Smith, BGR

Recortó partes de la imagen tratando de descubrir detalles que esperaría estar allí en una foto real de las áreas que rodean el Matterhorn. En su cadena de pensamiento, Chatgpt dijo que no podía detectar formas de montaña que pensaba que debería estar allí.

Fuente de la imagen: Chris Smith, BGR

La IA comenzó a anotar la imagen, buscando la respuesta mientras continuaba buscando en la web más imágenes que lo ayudarían a determinar la ubicación de los dos picos que le pedí que colocara círculos rojos.

Como puede ver, el falso Mini-Matterhorn a la derecha seguía engañando a la IA.

Fuente de la imagen: Chris Smith, BGR

En última instancia, ChatGPT O3 reconoció las incertidumbres, pero aún así decidió marcar los dos picos que pedí. Ejecutó el código en el chat y me dio la siguiente imagen.

Me hubiera encantado ver Chatgpt O3 llamar a mi farol y decirme que esta foto no es real. Quizás las versiones futuras de la IA puedan hacerlo. Pero debo decir que leer esos cinco minutos de “pensamiento”, la mayoría de ellos vistos en la imagen de arriba, fue aún mejor.

Imagen de captura de pantalla Fuente: Chris Smith, BGR

Me mostró que AI está trabajando para hacer el trabajo y reforzar mi idea de que la visión por computadora de IA es increíble en estas nuevas versiones de ChatGPT.

Pero espera, se vuelve mejor.

Chatgpt o4-mini

Mi experimento no se puede hacer sin usar ChatGpt O4-Mini. Después de todo, O4-Mini es el precursor de O4, que debería ser incluso mejor que O3. O4-Mini fue mucho más rápido que O3 al darme la respuesta.

Fuente de la imagen: Chris Smith, BGR

La IA pensó durante 15 segundos, durante los cuales apareció imágenes de Internet para respaldar su opinión que la foto que había subido era una imagen real del Matterhorn.

O4-Mini también explicó cómo identificaba la ubicación, pero se sentía seguro de que era correcto al respecto. Este es el Matterhorn, dado todo lo que ha aprendido de la Web.

Fuente de la imagen: Chris Smith, BGR

A diferencia de ChatGPT O3, O4-Mini no mencionó los picos adicionales. Pero le pedí a O4-Mini que hiciera lo mismo que O3: Identifique a Dent Blanche y Weisshorn.

O4-Mini me voló con su velocidad aquí. Tomó 18 segundos darme la siguiente imagen, que tiene círculos rojos alrededor de los dos picos.

Fuente de la imagen: Chris Smith, BGR

Sí, no es un gran trabajo, y no tengo idea de por qué la IA coloca esos círculos allí porque la transcripción más limitada de la cadena de pensamiento no lo explica.

Obviamente es incorrecto, considerando que estamos trabajando con una imagen de IA falsa aquí. Y sí, O4-Mini no podía decir que la foto era falsa.

El verdadero materia

Las conclusiones son obvias, y no todas son grandes noticias.

Primero, la generación de imágenes 4O puede ser fácilmente abusada. En realidad, nunca he visto el Matterhorn en persona, y por eso le pedí a la IA que hiciera esta imagen específica. Reconocí su famosa silueta de las fotos de la vida real, pero definitivamente no estoy familiarizado con los otros picos de la región. Esto demuestra que las imágenes creadas por Chatgpt pueden engañar a las personas. También pueden engañar a otros modelos de IA.

En segundo lugar, O3 y O4-Mini son simplemente increíbles al analizar los datos en las imágenes. Por supuesto, tienen que serlo. Si 4O puede crear fotos impresionantes y realistas, es porque la IA puede interpretar los datos en las imágenes.

En tercer lugar, encontrar información de ubicación de las fotos será trivialmente fácil para modelos OpenAI como O3 y O4-Mini. Los competidores probablemente obtendrán poderes similares. Este es un problema de privacidad que tendremos que tener en cuenta en el futuro.

Cuarto, ChatGPT O3 se toma muy en serio el trabajo de razonamiento. Si pasó todo ese tiempo en una foto de IA falsa tratando de igualarlo con el mundo real, pasará un tiempo similar en otros trabajos que podría lanzarle, y usará un montón de herramientas disponibles en ChatGPT (como codificación, búsqueda web, manipulación de imágenes) para hacer el trabajo.

Estoy seguro de que si hubiera pasado más tiempo con el razonamiento de la IA sobre la imagen, finalmente llegaríamos a la conclusión de que la imagen que la IA estaba investigando era falsa.

Quinto, ChatGpt O4-Mini puede ser realmente rápido. Demasiado rápido. Es algo que quieres de Genai Chatbots, pero también algo de lo que preocuparse. O4-Mini tampoco reconoció la foto falsa, pero su enfoque era mucho más descuidado. Eso me hace pensar que debes prestar atención adicional al trabajar con la versión Mini para asegurar que la IA haga el trabajo. Pero bueno, estoy trabajando con un experimento muy limitado aquí.

Finalmente, aquí está el Matterhorn y el área circundante de un clip de YouTube que se cargó en diciembre de 2020. Digo que, porque, en la era de la IA, el video que estás a punto de ver siempre podría ser falso. El video te brinda una “vista desde arriba del Nordwand de Weisshorn mirando hacia Matterhorn (L) y Dent Blanche (R). Mt Blanc es visible en la distancia (lejos R)”. Es un ángulo diferente, pero al menos lo suficientemente bueno como para darle una idea de lo que Chatgpt O3 estaba buscando.

Continue Reading

Noticias

La mafia Operai: 15 de las nuevas empresas más notables fundadas por ex alumnos

Published

on

Mudarse, PayPal Mafia: hay una nueva mafia tecnológica en Silicon Valley. Como la startup detrás de ChatGPT, Operai es posiblemente el mayor jugador de IA de la ciudad. Su aumento meteórico a una valoración de $ 300 mil millones ha estimulado a muchos empleados a dejar al gigante de la IA para crear sus propias nuevas empresas.

La exageración alrededor de Openai es tan alta que algunas de estas nuevas empresas, como la superinteligencia segura de Ilya Sutskever y el Laboratorio de Máquinas de Pensamiento de Mira Murati, han podido recaudar miles de millones de dólares sin siquiera lanzar un producto.

Pero hay muchas otras startups en el ecosistema de la mafia Operai. Estos van desde la perplejidad del gigante de búsqueda de IA hasta Xai, el nuevo propietario de X (anteriormente Twitter). También hay atuendos más pequeños con algunos planes futuristas, como Living Carbon, que está creando plantas que absorben más carbono de la atmósfera, o prosperan la robótica, que está construyendo un mayordomo robot.

A continuación se muestra un resumen de las nuevas empresas más notables fundadas por ex alumnos de Operai.

Dario Amodei, Daniela Amodei y John Schulman – Anthrope

Los hermanos Dario y Daniela Amodei se fueron OpenAi en 2021 para formar su propia startup, Anthrope, con sede en San Francisco, que durante mucho tiempo ha promocionado un enfoque en la seguridad de la IA. Más tarde, el cofundador de Operai, John Schulman, se unió a Anthrope en 2024, comprometiéndose a construir un “AGI seguro”. Según los informes, Openai permanece varias veces más grande que Anthrope por ingresos ($ 3.7 mil millones en comparación con $ 1 mil millones para 2024, informó la información). Pero Anthrope ha crecido rápidamente para convertirse en el mayor rival de Openai y fue valorado en $ 61.5 mil millones en marzo de 2025.

Ilya Sutskever – Superinteligencia segura

El cofundador y científica jefe de Operai, Ilya Sutskever, se fue Openai en mayo de 2024 después de que, según los informes, formó parte de un esfuerzo fallido para reemplazar al CEO Sam Altman. Poco después, cofundó una superinteligencia segura, o SSI, con “un objetivo y un producto: una superinteligencia segura”, dice. Detalles sobre qué es exactamente la startup es escasa: aún no tiene producto ni ingresos. Pero los inversores claman por una pieza de todos modos, y ha podido recaudar $ 2 mil millones, y su última valoración aumenta a $ 32 mil millones este mes. SSI tiene su sede en Palo Alto, California y Tel Aviv, Israel.

Mira Murati – Laboratorio de máquinas de pensamiento

Mira Murati, el CTO de OpenAi, se fue de Openai el año pasado para fundar su propia compañía, Thinking Machines Lab, que surgió del sigilo en febrero de 2025, anunciando (bastante vagamente) que construirá IA que sea más “personalizable” y “capaz”. La startup de la IA de San Francisco no tiene ningún producto ni ingresos, pero muchos ex investigadores de Top OpenAI y, según los informes, está en el proceso de recaudar una ronda de semillas masivas de $ 2 mil millones que lo valora a $ 10 mil millones, mínimo.

Aravind Srinivas – Perplejidad

Aravind Srinivas trabajó como científico de investigación en OpenAI durante un año hasta 2022, cuando dejó a la compañía para cofundar la perplejidad del motor de búsqueda de IA. Su startup ha atraído una serie de inversores de alto perfil como Jeff Bezos y Nvidia, aunque también ha causado controversia sobre el presunto raspado web poco ético. La perplejidad, con sede en San Francisco, actualmente está recaudando alrededor de $ 1 mil millones a una valoración de $ 18 mil millones a marzo de 2025.

Kyle Kosic – Xai

Kyle Kosic se fue Openai en 2023 para convertirse en cofundador e líder de infraestructura de Xai, la startup de IA de Elon Musk que ofrece un chatbot rival, Grok. En 2024, sin embargo, regresó a Openai. Xai, con sede en Palo Alto, adquirió recientemente X, anteriormente Twitter, y le dio a la entidad combinada una valoración de $ 113 mil millones. La transacción de todo el stock levantó algunas cejas, pero es un buen negocio si está apostando por el imperio de Musk.

Emmett Shear – STEM AI

Emmett Shear es el ex CEO de Twitch que fue el CEO interino de OpenAI en noviembre de 2023 durante unos días antes de que Sam Altman se uniera a la compañía. Shear está trabajando en su propia startup sigilosa, llamada Stem AI, TechCrunch reveló en 2024. Aunque hay pocos detalles sobre su actividad y recaudación de fondos hasta ahora, ya ha atraído fondos de Andreessen Horowitz.

Andrej Karpathy – Eureka Labs

El experto en visión por computadora Andrej Karpathy fue miembro fundador y científico de investigación en OpenAI, dejando que la startup se uniera a Tesla en 2017 para liderar su programa de piloto automático. Karpathy también es conocido por sus videos de YouTube que explican conceptos de Core AI. Dejó Tesla en 2024 para encontrar su propia startup de tecnología educativa, Eureka Labs, una startup con sede en San Francisco que está construyendo asistentes de enseñanza de IA.

Jeff Arnold – Piloto

Jeff Arnold trabajó como Jefe de Operaciones de OpenAi durante cinco meses en 2016 antes de cofundar Pilot de Contabilidad de Contabilidad con sede en San Francisco en 2017. Pilot, que se centró inicialmente en contabilizar las nuevas empresas, recaudó una última serie de $ 100 millones en la serie C en 2021 con una valoración de $ 1.2 mil millones y ha atraído a inversores como Jeff Bamos. Arnold trabajó como COO de Pilot hasta que se fue en 2024 para lanzar un fondo VC.

David Luan – Adept Ai Labs

David Luan fue el vicepresidente de ingeniería de OpenAI hasta que se fue en 2020. Después de un período en Google, en 2021 cofundó Adept Ai Labs, una startup que construye herramientas de IA para los empleados. La startup recaudó por última vez $ 350 millones a una valoración al norte de $ 1 mil millones en 2023, pero Luan se fue a fines de 2024 para supervisar el laboratorio de agentes de IA de Amazon después de que Amazon contrató a los fundadores de Adept.

Tim Shi – Cresta

Tim Shi fue uno de los primeros miembros del equipo de Operai, donde se centró en construir una inteligencia general artificial segura (AGI), según su perfil de LinkedIn. Trabajó en Openai durante un año en 2017, pero se fue para fundar Cresta, una startup del Centro de Contacto AI con sede en San Francisco que ha recaudado más de $ 270 millones de VC como Sequoia Capital, Andreessen Horowitz y otros, según un comunicado de prensa.

Pieter Abbeel, Peter Chen y Rocky Duan – Covariant

El trío trabajó en OpenAI en 2016 y 2017 como científicos de investigación antes de fundar Covariant, una startup con sede en Berkeley, California, que construye modelos de IA de la Fundación para robots. En 2024, Amazon contrató a los tres fundadores covariantes y aproximadamente una cuarta parte de su personal. La adquisición cuasi fue vista por algunos como parte de una tendencia más amplia de gran tecnología que intentaba evitar el escrutinio antimonopolio.

Maddie Hall – Carbono vivo

Maddie Hall trabajó en “proyectos especiales” en Operai, pero se fue en 2019 para cofundar Living Carbon, una startup con sede en San Francisco que tiene como objetivo crear plantas de ingeniería que puedan absorber más carbono del cielo para combatir el cambio climático. Living Carbon recaudó una ronda de la Serie A de $ 21 millones en 2023, lo que lleva su financiamiento total hasta entonces a $ 36 millones, según un comunicado de prensa.

Shariq Hashme – Prosper Robotics

Shariq Hashme trabajó para Openai durante 9 meses en 2017 en un bot que podría reproducir el popular videojuego Dota, según su perfil de LinkedIn. Después de unos años en la escala de startups de datos de datos de datos, cofundó Prosper Robotics con sede en Londres en 2021. La startup dice que está trabajando en un mayordomo robot para los hogares de las personas, una tendencia caliente en robótica en la que otros jugadores como 1X y Apptronik con sede en Noruega y Texas también están trabajando.

Jonas Schneider – Daedalus

Jonas Schneider lideró el equipo de Ingeniería de Robótica para la Ingeniería de Robótica, pero se fue en 2019 para cofundar Daedalus, que construye fábricas avanzadas para componentes de precisión. La startup con sede en San Francisco recaudó una serie A de $ 21 millones el año pasado con el respaldo de Khosla Ventures, entre otros.

Margaret Jennings – KindO

Margaret Jennings trabajó en Operai en 2022 y 2023 hasta que se fue para cofundar KindO, que se comercializa como un chatbot de IA para empresas. Kindo ha recaudado más de $ 27 millones en fondos, recaudando la última serie A de $ 20.6 millones en 2024. Jennings se fue de KindO en 2024 para encabezar productos e investigaciones en la startup francesa de IA Mistral, según su perfil de LinkedIn.

Continue Reading

Noticias

El futuro está aquí: probar el modo de cámara en vivo de Gemini

Published

on

“Acabo de ver tus tijeras sobre la mesa, justo al lado del paquete verde de pistachos. ¿Las ves?”

La nueva y charlatis función de cámara de Gemini Live era correcta. Mis tijeras estaban exactamente donde decían que estaban, y todo lo que hice fue pasar mi cámara frente a ellas en algún momento durante una sesión en vivo de 15 minutos de mí dándole al chatbot Ai un recorrido por mi apartamento. Google ha estado implementando el nuevo modo de cámara a todos los teléfonos Android utilizando la aplicación Gemini de forma gratuita después de una exclusiva de dos semanas en Pixel 9 (incluidos los nuevos teléfonos inteligentes Pixel 9a) y Galaxy S5. Entonces, ¿qué es exactamente este modo de cámara y cómo funciona?

Cuando comienzas una sesión en vivo con Gemini, ahora tienes la opción de habilitar una vista de cámara en vivo, donde puedes hablar con el chatbot y preguntarle sobre cualquier cosa que ve la cámara. No solo puede identificar objetos, sino que también puede hacer preguntas sobre ellos, y funciona bastante bien en su mayor parte. Además, puede compartir su pantalla con Gemini para que pueda identificar cosas que sale a la superficie en la pantalla de su teléfono.

Cuando apareció la nueva función de cámara en mi teléfono, no dudé en probarla. En una de mis pruebas más largas, lo encendí y comencé a caminar por mi apartamento, preguntándole a Géminis qué vio. Identificó algunas frutas, chapstick y algunos otros artículos cotidianos sin ningún problema. Me sorprendió cuando encontró mis tijeras.

Eso es porque no había mencionado las tijeras en absoluto. Géminis los había identificado silenciosamente en algún lugar del camino y luego retiró la ubicación con precisión. Se sentía mucho como el futuro, tuve que hacer más pruebas.

Mi experimento con la función de cámara de Gemini Live fue seguir el liderazgo de la demostración que Google hizo el verano pasado cuando mostró por primera vez estas capacidades de IA de video en vivo. Géminis le recordó a la persona que dio la demostración donde había dejado sus gafas, y parecía demasiado bueno para ser verdad. Pero como descubrí, era muy cierto.

Gemini Live reconocerá mucho más que las probabilidades y fines del hogar. Google dice que te ayudará a navegar por una estación de tren abarrotada o descubrir el relleno de una masa. Puede brindarle información más profunda sobre obras de arte, como dónde se originó un objeto y si se trataba de una pieza de edición limitada.

Es más que una lente de Google mejorada. Hablas con eso y te habla. No necesitaba hablar con Gemini de ninguna manera en particular, era tan informal como cualquier conversación. Mucho mejor que hablar con el antiguo Asistente de Google que la compañía se está eliminando rápidamente.

Conversación en vivo de Géminis

Ampliar imagen

Conversación en vivo de Géminis

Aquí hay un vistazo a parte de mi conversación con Gemini Live sobre los objetos que estaba viendo en mi apartamento.

Blake Stimac/Cnet

Google también lanzó un nuevo video de YouTube para la caída de píxeles de abril de 2025 que muestra la función, y ahora hay una página dedicada en Google Store para ello.

Para comenzar, puede ir a vivir con Gemini, habilitar la cámara y comenzar a hablar. Eso es todo.

Gemini Live sigue desde el proyecto Astra de Google, revelado por primera vez el año pasado como posiblemente la característica más grande de la compañía “estamos en el futuro”, un siguiente paso experimental para las capacidades generativas de IA, más allá de su simplemente escribir o incluso hablar en un chatbot como chatgpt, Claude o gemini. Se produce a medida que las empresas de IA continúan aumentando drásticamente las habilidades de las herramientas de IA, desde la generación de videos hasta la potencia de procesamiento en bruto. Similar a Gemini Live, está la inteligencia visual de Apple, que el fabricante de iPhone lanzó en forma beta a fines del año pasado.

Mi gran conclusión es que una característica como Gemini Live tiene el potencial de cambiar la forma en que interactuamos con el mundo que nos rodea, fusionando nuestros mundos digitales y físicos simplemente sosteniendo su cámara frente a casi cualquier cosa.

Puse a Géminis en vivo en una prueba real

La primera vez que lo probé, Gemini fue sorprendentemente preciso cuando coloqué un juego muy específico coleccionable de un conejo relleno en la vista de mi cámara. La segunda vez, se lo mostré a un amigo en una galería de arte. Identificó la tortuga en una cruz (no me preguntes) e inmediatamente identificó y tradujo el Kanji justo al lado de la tortuga, dándonos a los dos escalofríos y dejándonos más que un poco asustados. En el buen sentido, creo.

Este fue el primer objeto que probé con la nueva función de Gemini Live, y reconoció impresionantemente qué era y de qué juego era (Alice de American McGee). Cada vez que le pedía a Géminis que identifique el juego del que era el lujoso, fallaba.

Blake Stimac/Cnet

Pensé en cómo podría probar la función. Traté de grabarlo en la pantalla en acción, pero constantemente se desmoronó en esa tarea. ¿Y qué pasaría si saliera del camino golpeado con él? Soy un gran admirador del género de terror (películas, programas de televisión, videojuegos) y tengo innumerables coleccionables, baratijas y lo que tienes. ¿Qué tan bien le haría con cosas más oscuras, como mis coleccionables con temática de terror?

Las pruebas iniciales demostraron ser significativamente más exitosas que la anterior, a pesar de darle varias pistas. Gemini finalmente consiguió el juego, Silent Hill: el mensaje corto, pero aún no podía dar el nombre correcto para la figura, aterrizando solo en “Cherry Blossom Monster” en lugar de Sakurahead, que había adivinado correctamente varias veces antes.

Blake Stimac/Cnet

Primero, permítanme decir que Géminis puede ser absolutamente increíble y ridículamente frustrante en la misma ronda de preguntas. Tenía aproximadamente 11 objetos que le estaba pidiendo a Gemini que se identificara, y a veces empeoraba cuanto más tiempo funcionara la sesión en vivo, por lo que tuve que limitar las sesiones a solo uno o dos objetos. Supongo que Gemini intentó usar información contextual de objetos previamente identificados para adivinar nuevos objetos que se ponen al frente, lo que tiene sentido, pero en última instancia, ni yo ni yo nos beneficié de esto.

A veces, Géminis estaba en punto, aterrizando fácilmente las respuestas correctas sin problemas ni confusión, pero esto tendía a suceder con objetos más recientes o populares. Por ejemplo, me sorprendió cuando inmediatamente supuso que uno de mis objetos de prueba no era solo de Destiny 2, sino que fue una edición limitada de un evento estacional del año pasado.

En otras ocasiones, Gemini estaría fuera de la marca, y necesitaría darle más pistas para entrar en el estadio de la respuesta correcta. Y a veces, parecía que Géminis estaba tomando contexto de mis sesiones en vivo anteriores para encontrar respuestas, identificando múltiples objetos como provenientes de Silent Hill cuando no lo estaban. Tengo un caso de exhibición dedicado a la serie de juegos, por lo que pude ver por qué querría sumergirse en ese territorio rápidamente.

Esta fue la más difícil de mis pruebas. Le pedí a Gemini que identifique no solo de qué juego todavía era esto (Silent Hill 2), sino qué cita icónica, dijo la persona en la parte superior de las escaleras. Géminis clavó el juego, los personajes y la mitad de la cita en la primera ronda; Se necesitaron dos conjeturas más para terminar la cita: “¿También lo ves? Para mí, siempre es así”.

Blake Stimac/Cnet

Géminis puede obtener un error completo a veces. En más de una ocasión, Gemini identificó erróneamente uno de los artículos como un personaje inventado de la colina silenciosa inédita: F Juego, claramente fusionando piezas de diferentes títulos en algo que nunca fue. El otro error consistente que experimenté fue cuando Gemini producía una respuesta incorrecta, y lo corrigía e insinuaría más cerca de la respuesta, o directamente darle la respuesta, solo para que repita la respuesta incorrecta como si fuera una nueva suposición. Cuando eso sucedía, cerraría la sesión y comenzaría una nueva, que no siempre fue útil.

Un truco que encontré fue que algunas conversaciones lo hicieron mejor que otras. Si me desplazé por mi lista de conversación de Géminis, aproveché un viejo chat que había obtenido un elemento específico correcto, y entonces Volvió a vivir de nuevo desde ese chat, podría identificar los elementos sin problemas. Si bien eso no es necesariamente sorprendente, fue interesante ver que algunas conversaciones funcionaron mejor que otras, incluso si usó el mismo idioma.

Google no respondió a mis solicitudes de más información sobre cómo funciona Gemini Live.

I buscado Géminis para responder con éxito mis preguntas a veces altamente específicas, así que proporcioné muchas pistas para llegar allí. Los empujones a menudo eran útiles, pero no siempre. A continuación hay una serie de objetos que intenté que Gemini identifique y proporcione información.

Para este, solo le pregunté a Gemini qué vio. “Ok, veo un gato blanco y negro que está disfrutando del sol en un piso de madera. Le pedí a Gemini que volviera a adivinar, y recibí respuestas de “Home es donde el horror es” honor “, pero finalmente aterrizó en la respuesta correcta (solo la palabra,” horror “).

Blake Stimac/Cnet

Gemini me dio cuatro personajes equivocados del juego correcto antes de identificar correctamente este icónico personaje infinito de Bioshock, Songbird.

Blake Stimac/Cnet

Géminis clavó esta figura espeluznante en la primera suposición. (Víctima gemela, Silent Hill 4: la habitación)

Blake Stimac/Cnet

Sin complicaciones: Géminis reconoció correctamente a Mira de Silent Hill 2, la real en control de la ciudad

Blake Stimac/Cnet

Este me impresionó. Si bien Géminis podía “ver” que este era un mapa silencioso de la colina, clavó el hecho de que se trataba de una impresión de carrera limitada que era parte de un ARG que tuvo lugar el año pasado.

Blake Stimac/Cnet

Gemini adoptó un enfoque muy diferente para identificar esta chaqueta de Silent Hill 2. Hizo 24 preguntas específicas basadas en la información que le di, con mi primera pista de que era de un videojuego. Sin embargo, para la 19ª pregunta, parecía que ya sabía exactamente de qué juego era por las preguntas específicas que me estaba haciendo.

Blake Stimac/Cnet

Este no tardó mucho, pero Gemini originalmente sugirió que este retrato podría ser del autor y poeta estadounidense John Ashbery. Una vez que moví la cámara más cerca de la imagen y dije que era de un programa de televisión, Gemini respondió correctamente: “Esa es la dama de troncos de Twin Peaks, sosteniendo su famoso tronco”.

Blake Stimac/Cnet

Esta fue fácil para Géminis. Inmediatamente reconoció esto como un mazo de tarot de edición limitada que tuvo que ser “ganada” jugando a través de un evento estacional específico en Destiny 2.

Blake Stimac/Cnet

Continue Reading

Trending