Noticias

OpenAI confirma que los actores de amenazas usan ChatGPT para escribir malware

Published

7 meses ago

12 octubre, 2024

OpenAI ha interrumpido más de 20 operaciones cibernéticas maliciosas abusando de su chatbot impulsado por IA, ChatGPT, para depurar y desarrollar malware, difundir información errónea, evadir la detección y realizar ataques de phishing.

El informe, que se centra en las operaciones desde principios de año, constituye la primera confirmación oficial de que se utilizan herramientas generativas de inteligencia artificial para mejorar las operaciones cibernéticas ofensivas.

Los primeros signos de tal actividad fueron reportados por Proofpoint en abril, quien sospechaba que TA547 (también conocido como “Scully Spider”) estaba implementando un cargador PowerShell escrito por IA para su carga útil final, el ladrón de información Rhadamanthys.

El mes pasado, los investigadores de HP Wolf informaron con gran confianza que los ciberdelincuentes que apuntaban a usuarios franceses estaban empleando herramientas de inteligencia artificial para escribir scripts utilizados como parte de una cadena de infección de varios pasos.

El último informe de OpenAI confirma el abuso de ChatGPT y presenta casos de actores de amenazas chinos e iraníes que lo aprovechan para mejorar la eficacia de sus operaciones.

Uso de ChatGPT en ataques reales

El primer actor de amenazas descrito por OpenAI es ‘dulceespectro,’ un adversario chino documentado por primera vez por los analistas de Cisco Talos en noviembre de 2023 como un grupo de amenazas de ciberespionaje dirigido a gobiernos asiáticos.

OpenAI informa que SweetSpecter los atacó directamente, enviando correos electrónicos de phishing con archivos adjuntos ZIP maliciosos enmascarados como solicitudes de soporte a las direcciones de correo electrónico personales de los empleados de OpenAI.

Si se abrían, los archivos adjuntos desencadenaban una cadena de infección, lo que provocaba que SugarGh0st RAT cayera en el sistema de la víctima.

**Correo electrónico de phishing enviado a empleados de OpenAI**
*Fuente: Punto de prueba*

Tras una investigación más profunda, OpenAI descubrió que SweetSpecter estaba utilizando un grupo de cuentas ChatGPT que realizaban investigaciones de scripting y análisis de vulnerabilidades con la ayuda de la herramienta LLM.

Los actores de amenazas utilizaron ChatGPT para las siguientes solicitudes:

Actividad	Categoría del marco LLM ATT&CK
Preguntar sobre vulnerabilidades en diversas aplicaciones.	Reconocimiento informado por LLM
Preguntar cómo buscar versiones específicas de Log4j que sean vulnerables al RCE Log4Shell crítico.	Reconocimiento informado por LLM
Preguntar sobre los sistemas de gestión de contenidos populares utilizados en el extranjero.	Reconocimiento informado por LLM
Solicitar información sobre números CVE específicos.	Reconocimiento informado por LLM
Preguntar cómo se fabrican los escáneres de Internet.	Reconocimiento informado por LLM
Preguntar cómo se usaría sqlmap para cargar un shell web potencial en un servidor de destino.	Investigación de vulnerabilidades asistida por LLM
Pidiendo ayuda para encontrar formas de explotar la infraestructura de un destacado fabricante de automóviles.	Investigación de vulnerabilidades asistida por LLM
Proporcionar código y solicitar ayuda adicional utilizando servicios de comunicación para enviar mensajes de texto mediante programación.	Técnicas de secuencias de comandos mejoradas por LLM
Solicitando ayuda para depurar el desarrollo de una extensión para una herramienta de ciberseguridad.	Técnicas de secuencias de comandos mejoradas por LLM
Solicitar ayuda para depurar código que forma parte de un marco más amplio para enviar mensajes de texto mediante programación a números específicos del atacante.	Desarrollo asistido por LLM
Preguntar por temas que los empleados del departamento gubernamental encontrarían interesantes y cuáles serían buenos nombres para los archivos adjuntos para evitar ser bloqueados.	Ingeniería social respaldada por LLM
Solicitar variaciones de un mensaje de contratación laboral proporcionado por un atacante.	Ingeniería social respaldada por LLM

El segundo caso se refiere al grupo amenazante afiliado al Cuerpo de la Guardia Revolucionaria Islámica (IRGC) del gobierno iraní.CyberAv3ngers,’ conocido por apuntar a sistemas industriales en ubicaciones de infraestructura crítica en países occidentales.

OpenAI informa que las cuentas asociadas con este grupo de amenazas solicitaron a ChatGPT que generara credenciales predeterminadas en controladores lógicos programables (PLC) ampliamente utilizados, desarrollara scripts personalizados de bash y Python y ofuscara el código.

Los piratas informáticos iraníes también utilizaron ChatGPT para planificar su actividad posterior al compromiso, aprender cómo explotar vulnerabilidades específicas y elegir métodos para robar contraseñas de usuarios en sistemas macOS, como se detalla a continuación.

Actividad	Categoría del marco LLM ATT&CK
Solicitar una lista de enrutadores industriales de uso común en Jordania.	Reconocimiento informado por LLM
Solicitar una lista de protocolos industriales y puertos que pueden conectarse a Internet.	Reconocimiento informado por LLM
Solicitar la contraseña predeterminada para un dispositivo Tridium Niagara.	Reconocimiento informado por LLM
Solicitando el usuario y contraseña predeterminados de un enrutador industrial Hirschmann Serie RS.	Reconocimiento informado por LLM
Solicitando vulnerabilidades reveladas recientemente en CrushFTP y Cisco Integrated Management Controller, así como vulnerabilidades más antiguas en el software Asterisk Voice over IP.	Reconocimiento informado por LLM
Solicitar listas de empresas eléctricas, contratistas y PLC comunes en Jordania.	Reconocimiento informado por LLM
Preguntar por qué un fragmento de código bash devuelve un error.	Técnicas de secuencias de comandos mejoradas de LLM
Solicitando crear un cliente Modbus TCP/IP.	Técnicas de secuencias de comandos mejoradas de LLM
Solicitar escanear una red en busca de vulnerabilidades explotables.	Investigación de vulnerabilidad asistida por LLM
Solicitar escanear archivos zip en busca de vulnerabilidades explotables.	Investigación de vulnerabilidad asistida por LLM
Solicitando un ejemplo de código fuente C que vacíe el proceso.	Investigación de vulnerabilidad asistida por LLM
Preguntar cómo ofuscar la escritura de scripts vba en Excel.	Evasión de detección de anomalías mejorada por LLM
Pedirle al modelo que ofusque el código (y proporcionar el código).	Evasión de detección de anomalías mejorada por LLM
Preguntando cómo copiar un archivo SAM.	Actividad posterior al compromiso asistida por LLM
Solicitando una aplicación alternativa a mimikatz.	Actividad posterior al compromiso asistida por LLM
Preguntar cómo usar pwdump para exportar una contraseña.	Actividad posterior al compromiso asistida por LLM
Preguntar cómo acceder a las contraseñas de los usuarios en MacOS.	Actividad posterior al compromiso asistida por LLM

El tercer caso destacado en el informe de OpenAI preocupa Tormenta-0817también actores de amenazas iraníes.

Según se informa, ese grupo utilizó ChatGPT para depurar malware, crear un raspador de Instagram, traducir perfiles de LinkedIn al persa y desarrollar un malware personalizado para la plataforma Android junto con la infraestructura de comando y control de soporte, como se detalla a continuación.

Actividad	Categoría del marco LLM ATT&CK
Buscando ayuda para depurar e implementar un raspador de Instagram.	Técnicas de secuencias de comandos mejoradas por LLM
Traducción de perfiles de LinkedIn de profesionales de ciberseguridad paquistaníes al persa.	Reconocimiento informado por LLM
Solicitando soporte de depuración y desarrollo en la implementación de malware para Android y la infraestructura de comando y control correspondiente.	Desarrollo asistido por LLM

El malware creado con la ayuda del chatbot de OpenAI puede robar listas de contactos, registros de llamadas y archivos almacenados en el dispositivo, tomar capturas de pantalla, examinar el historial de navegación del usuario y obtener su posición precisa.

“En paralelo, STORM-0817 utilizó ChatGPT para respaldar el desarrollo del código del lado del servidor necesario para manejar las conexiones desde dispositivos comprometidos”, se lee en el informe de Open AI.

“Esto nos permitió ver que el servidor de comando y control para este malware es una configuración WAMP (Windows, Apache, MySQL y PHP/Perl/Python) y durante las pruebas estaba usando el dominio stickhero.[.]pro.”

Todas las cuentas de OpenAI utilizadas por los actores de amenazas mencionados anteriormente fueron prohibidas y los indicadores de compromiso asociados, incluidas las direcciones IP, se compartieron con socios de ciberseguridad.

Aunque ninguno de los casos descritos anteriormente brinda a los actores de amenazas nuevas capacidades para desarrollar malware, constituyen una prueba de que las herramientas de inteligencia artificial generativa pueden hacer que las operaciones ofensivas sean más eficientes para los actores poco calificados, ayudándolos en todas las etapas, desde la planificación hasta la ejecución.

Noticias

Chatgpt o3 La función de ubicación de la foto es una locura buena

Published

5 horas ago

26 abril, 2025

Sergio Villanueva

Operai lanzó dos poderosos modelos de razonamiento hace unos días que hacen que Chatgpt sea aún más impresionante. Estos son O3 y O4-Mini que puedes probar de inmediato en ChatGPT. Son mucho mejores en el razonamiento que sus predecesores y pueden sobresalir en la codificación y las matemáticas si esos son sus pasatiempos.

Sin embargo, la nueva función de cambio de cabeza de ChatGPT en O3 y O4-Mini es, al menos para mí, la capacidad de la IA para interpretar los datos en las imágenes. Esencialmente, ChatGPT tiene una visión por computadora como en las películas, incluidas las capacidades de razonamiento que permiten que la IA extraiga los datos de ubicación de las fotos. Puedes preguntarle a la IA: “¿Dónde se tomó esta foto?” Y la IA hará todo lo que esté en su poder para responder.

Chatgpt O3 y O4-Mini obtendrán las cosas bien, como estás a punto de ver en mi prueba altamente científica que sigue. Es decir, harán las cosas bien incluso si trato de usar AI para engañar a Chatgpt.

Porque sí, usé GPT-4O Generation para crear una foto realista de una ubicación de esquí bien conocida en los Alpes en lugar de subir una imagen real. Luego le dije a ChatGPT que alterara esa imagen de una manera que cambiaría el horizonte.

Después de eso, comencé nuevas chats con O3 y O4-Mini, convencido de que ChatGPT reconocería la ubicación en la foto falsa que acababa de enviar. No me equivoqué; Ambos modelos me dieron el resultado que esperaba, demostrando que puede usar contenido generado por IA para engañar a la IA. Pero, sin embargo, me volaron la mente.

Recientemente le expliqué cómo los algoritmos de Apple Watch me decepcionan mientras esquiaba la semana pasada, y eso es lo que usé como inspiración en mi experimento para engañar a la IA.

Le pedí a ChatGPT que generara una foto que mostrara el conocido Matterhorn Peak en un día soleado, con esquiadores disfrutando de su tiempo. La foto tenía que tener una relación de aspecto de 16: 9 y parecerse a una foto de iPhone.

Fuente de la imagen: Chris Smith, BGR

Le dije a la IA que pusiera una góndola por si acaso, pero, como puede ver en el primer intento, que Góndola no iba a lugares. No importa; Solo necesitaba una primera imagen de la IA para poder alterarla. Ingrese la siguiente imagen:

Le indiqué a ChatGPT que eliminara la góndola y colocara un pico más pequeño de Matterhorn hacia la derecha.

Tomé una captura de pantalla de la imagen para que no preservara ningún metadato, y luego convertí el archivo en una foto JPG:

Luego, comencé dos chats separados, con Chatgpt O3 y Chatgpt O4-Mini, donde subí la foto falsa de Matterhorn y le pedí a la IA que me dijera dónde se tomó la foto y cómo la descubrieron.

Como era de esperar, ambos modelos de IA de razonamiento identificaron con éxito Matterhorn como la ubicación.

Chatgpt o3

Primero, tenemos O3, que me dio amplios detalles sobre cómo determinó la ubicación. La IA tiene una confianza increíblemente segura en su respuesta, diciéndome que “picos flanqueantes como el Dent Blanche y Weisshorn” son letreros.

Tenía una sonrisa en mi rostro. Había vencido a la IA, con ai Haciéndolo reconocer la ubicación en una foto falsa. Era aún mejor que el O3 estuviera tan seguro de sí mismo después de solo 34 segundos de pensamiento.

Pero luego pensé que empujaría las cosas más para que pudiera averiguar que la imagen era falsa. Le pedí que dibujara círculos sobre Dent Blanche y Weisshorn.

Aquí es donde ver a O3 en acción me voló. Esta vez, la IA pasó casi seis minutos mirando la foto, tratando de identificar de manera confiable los dos picos que dijo que podía ver en la distancia.

Como verá, el Mini Matterhorn a la derecha inmediatamente arrojó la IA, pero Chatgpt no se detuvo allí. Seguía mirando la foto y buscó en la web imágenes de la región Alps donde se encuentran estos picos.

También observó la foto para determinar la ubicación relativa de los picos adicionales en la región. “Puedo intentar superponer a los máximos locales aproximados basados en el brillo, pero honestamente, creo que es más fácil usar mis ojos para esto”, pensó O3, y me sorprendió leerlo.

La IA pasó a acercarse para ver mejor las partes de la foto de IA falsa:

Recortó partes de la imagen tratando de descubrir detalles que esperaría estar allí en una foto real de las áreas que rodean el Matterhorn. En su cadena de pensamiento, Chatgpt dijo que no podía detectar formas de montaña que pensaba que debería estar allí.

La IA comenzó a anotar la imagen, buscando la respuesta mientras continuaba buscando en la web más imágenes que lo ayudarían a determinar la ubicación de los dos picos que le pedí que colocara círculos rojos.

Como puede ver, el falso Mini-Matterhorn a la derecha seguía engañando a la IA.

En última instancia, ChatGPT O3 reconoció las incertidumbres, pero aún así decidió marcar los dos picos que pedí. Ejecutó el código en el chat y me dio la siguiente imagen.

Me hubiera encantado ver Chatgpt O3 llamar a mi farol y decirme que esta foto no es real. Quizás las versiones futuras de la IA puedan hacerlo. Pero debo decir que leer esos cinco minutos de “pensamiento”, la mayoría de ellos vistos en la imagen de arriba, fue aún mejor.

Imagen de captura de pantalla Fuente: Chris Smith, BGR

Me mostró que AI está trabajando para hacer el trabajo y reforzar mi idea de que la visión por computadora de IA es increíble en estas nuevas versiones de ChatGPT.

Pero espera, se vuelve mejor.

Chatgpt o4-mini

Mi experimento no se puede hacer sin usar ChatGpt O4-Mini. Después de todo, O4-Mini es el precursor de O4, que debería ser incluso mejor que O3. O4-Mini fue mucho más rápido que O3 al darme la respuesta.

La IA pensó durante 15 segundos, durante los cuales apareció imágenes de Internet para respaldar su opinión que la foto que había subido era una imagen real del Matterhorn.

O4-Mini también explicó cómo identificaba la ubicación, pero se sentía seguro de que era correcto al respecto. Este es el Matterhorn, dado todo lo que ha aprendido de la Web.

A diferencia de ChatGPT O3, O4-Mini no mencionó los picos adicionales. Pero le pedí a O4-Mini que hiciera lo mismo que O3: Identifique a Dent Blanche y Weisshorn.

O4-Mini me voló con su velocidad aquí. Tomó 18 segundos darme la siguiente imagen, que tiene círculos rojos alrededor de los dos picos.

Sí, no es un gran trabajo, y no tengo idea de por qué la IA coloca esos círculos allí porque la transcripción más limitada de la cadena de pensamiento no lo explica.

Obviamente es incorrecto, considerando que estamos trabajando con una imagen de IA falsa aquí. Y sí, O4-Mini no podía decir que la foto era falsa.

El verdadero materia

Las conclusiones son obvias, y no todas son grandes noticias.

Primero, la generación de imágenes 4O puede ser fácilmente abusada. En realidad, nunca he visto el Matterhorn en persona, y por eso le pedí a la IA que hiciera esta imagen específica. Reconocí su famosa silueta de las fotos de la vida real, pero definitivamente no estoy familiarizado con los otros picos de la región. Esto demuestra que las imágenes creadas por Chatgpt pueden engañar a las personas. También pueden engañar a otros modelos de IA.

En segundo lugar, O3 y O4-Mini son simplemente increíbles al analizar los datos en las imágenes. Por supuesto, tienen que serlo. Si 4O puede crear fotos impresionantes y realistas, es porque la IA puede interpretar los datos en las imágenes.

En tercer lugar, encontrar información de ubicación de las fotos será trivialmente fácil para modelos OpenAI como O3 y O4-Mini. Los competidores probablemente obtendrán poderes similares. Este es un problema de privacidad que tendremos que tener en cuenta en el futuro.

Cuarto, ChatGPT O3 se toma muy en serio el trabajo de razonamiento. Si pasó todo ese tiempo en una foto de IA falsa tratando de igualarlo con el mundo real, pasará un tiempo similar en otros trabajos que podría lanzarle, y usará un montón de herramientas disponibles en ChatGPT (como codificación, búsqueda web, manipulación de imágenes) para hacer el trabajo.

Estoy seguro de que si hubiera pasado más tiempo con el razonamiento de la IA sobre la imagen, finalmente llegaríamos a la conclusión de que la imagen que la IA estaba investigando era falsa.

Quinto, ChatGpt O4-Mini puede ser realmente rápido. Demasiado rápido. Es algo que quieres de Genai Chatbots, pero también algo de lo que preocuparse. O4-Mini tampoco reconoció la foto falsa, pero su enfoque era mucho más descuidado. Eso me hace pensar que debes prestar atención adicional al trabajar con la versión Mini para asegurar que la IA haga el trabajo. Pero bueno, estoy trabajando con un experimento muy limitado aquí.

Finalmente, aquí está el Matterhorn y el área circundante de un clip de YouTube que se cargó en diciembre de 2020. Digo que, porque, en la era de la IA, el video que estás a punto de ver siempre podría ser falso. El video te brinda una “vista desde arriba del Nordwand de Weisshorn mirando hacia Matterhorn (L) y Dent Blanche (R). Mt Blanc es visible en la distancia (lejos R)”. Es un ángulo diferente, pero al menos lo suficientemente bueno como para darle una idea de lo que Chatgpt O3 estaba buscando.

https://www.youtube.com/watch?v=n3pzgp1acoe

Noticias

La mafia Operai: 15 de las nuevas empresas más notables fundadas por ex alumnos

Published

5 horas ago

26 abril, 2025

Sergio Villanueva

Mudarse, PayPal Mafia: hay una nueva mafia tecnológica en Silicon Valley. Como la startup detrás de ChatGPT, Operai es posiblemente el mayor jugador de IA de la ciudad. Su aumento meteórico a una valoración de $ 300 mil millones ha estimulado a muchos empleados a dejar al gigante de la IA para crear sus propias nuevas empresas.

La exageración alrededor de Openai es tan alta que algunas de estas nuevas empresas, como la superinteligencia segura de Ilya Sutskever y el Laboratorio de Máquinas de Pensamiento de Mira Murati, han podido recaudar miles de millones de dólares sin siquiera lanzar un producto.

Pero hay muchas otras startups en el ecosistema de la mafia Operai. Estos van desde la perplejidad del gigante de búsqueda de IA hasta Xai, el nuevo propietario de X (anteriormente Twitter). También hay atuendos más pequeños con algunos planes futuristas, como Living Carbon, que está creando plantas que absorben más carbono de la atmósfera, o prosperan la robótica, que está construyendo un mayordomo robot.

A continuación se muestra un resumen de las nuevas empresas más notables fundadas por ex alumnos de Operai.

Dario Amodei, Daniela Amodei y John Schulman – Anthrope

Los hermanos Dario y Daniela Amodei se fueron OpenAi en 2021 para formar su propia startup, Anthrope, con sede en San Francisco, que durante mucho tiempo ha promocionado un enfoque en la seguridad de la IA. Más tarde, el cofundador de Operai, John Schulman, se unió a Anthrope en 2024, comprometiéndose a construir un “AGI seguro”. Según los informes, Openai permanece varias veces más grande que Anthrope por ingresos ($ 3.7 mil millones en comparación con $ 1 mil millones para 2024, informó la información). Pero Anthrope ha crecido rápidamente para convertirse en el mayor rival de Openai y fue valorado en $ 61.5 mil millones en marzo de 2025.

Ilya Sutskever – Superinteligencia segura

El cofundador y científica jefe de Operai, Ilya Sutskever, se fue Openai en mayo de 2024 después de que, según los informes, formó parte de un esfuerzo fallido para reemplazar al CEO Sam Altman. Poco después, cofundó una superinteligencia segura, o SSI, con “un objetivo y un producto: una superinteligencia segura”, dice. Detalles sobre qué es exactamente la startup es escasa: aún no tiene producto ni ingresos. Pero los inversores claman por una pieza de todos modos, y ha podido recaudar $ 2 mil millones, y su última valoración aumenta a $ 32 mil millones este mes. SSI tiene su sede en Palo Alto, California y Tel Aviv, Israel.

Mira Murati – Laboratorio de máquinas de pensamiento

Mira Murati, el CTO de OpenAi, se fue de Openai el año pasado para fundar su propia compañía, Thinking Machines Lab, que surgió del sigilo en febrero de 2025, anunciando (bastante vagamente) que construirá IA que sea más “personalizable” y “capaz”. La startup de la IA de San Francisco no tiene ningún producto ni ingresos, pero muchos ex investigadores de Top OpenAI y, según los informes, está en el proceso de recaudar una ronda de semillas masivas de $ 2 mil millones que lo valora a $ 10 mil millones, mínimo.

Aravind Srinivas – Perplejidad

Aravind Srinivas trabajó como científico de investigación en OpenAI durante un año hasta 2022, cuando dejó a la compañía para cofundar la perplejidad del motor de búsqueda de IA. Su startup ha atraído una serie de inversores de alto perfil como Jeff Bezos y Nvidia, aunque también ha causado controversia sobre el presunto raspado web poco ético. La perplejidad, con sede en San Francisco, actualmente está recaudando alrededor de $ 1 mil millones a una valoración de $ 18 mil millones a marzo de 2025.

Kyle Kosic – Xai

Kyle Kosic se fue Openai en 2023 para convertirse en cofundador e líder de infraestructura de Xai, la startup de IA de Elon Musk que ofrece un chatbot rival, Grok. En 2024, sin embargo, regresó a Openai. Xai, con sede en Palo Alto, adquirió recientemente X, anteriormente Twitter, y le dio a la entidad combinada una valoración de $ 113 mil millones. La transacción de todo el stock levantó algunas cejas, pero es un buen negocio si está apostando por el imperio de Musk.

Emmett Shear – STEM AI

Emmett Shear es el ex CEO de Twitch que fue el CEO interino de OpenAI en noviembre de 2023 durante unos días antes de que Sam Altman se uniera a la compañía. Shear está trabajando en su propia startup sigilosa, llamada Stem AI, TechCrunch reveló en 2024. Aunque hay pocos detalles sobre su actividad y recaudación de fondos hasta ahora, ya ha atraído fondos de Andreessen Horowitz.

Andrej Karpathy – Eureka Labs

El experto en visión por computadora Andrej Karpathy fue miembro fundador y científico de investigación en OpenAI, dejando que la startup se uniera a Tesla en 2017 para liderar su programa de piloto automático. Karpathy también es conocido por sus videos de YouTube que explican conceptos de Core AI. Dejó Tesla en 2024 para encontrar su propia startup de tecnología educativa, Eureka Labs, una startup con sede en San Francisco que está construyendo asistentes de enseñanza de IA.

Jeff Arnold – Piloto

Jeff Arnold trabajó como Jefe de Operaciones de OpenAi durante cinco meses en 2016 antes de cofundar Pilot de Contabilidad de Contabilidad con sede en San Francisco en 2017. Pilot, que se centró inicialmente en contabilizar las nuevas empresas, recaudó una última serie de $ 100 millones en la serie C en 2021 con una valoración de $ 1.2 mil millones y ha atraído a inversores como Jeff Bamos. Arnold trabajó como COO de Pilot hasta que se fue en 2024 para lanzar un fondo VC.

David Luan – Adept Ai Labs

David Luan fue el vicepresidente de ingeniería de OpenAI hasta que se fue en 2020. Después de un período en Google, en 2021 cofundó Adept Ai Labs, una startup que construye herramientas de IA para los empleados. La startup recaudó por última vez $ 350 millones a una valoración al norte de $ 1 mil millones en 2023, pero Luan se fue a fines de 2024 para supervisar el laboratorio de agentes de IA de Amazon después de que Amazon contrató a los fundadores de Adept.

Tim Shi – Cresta

Tim Shi fue uno de los primeros miembros del equipo de Operai, donde se centró en construir una inteligencia general artificial segura (AGI), según su perfil de LinkedIn. Trabajó en Openai durante un año en 2017, pero se fue para fundar Cresta, una startup del Centro de Contacto AI con sede en San Francisco que ha recaudado más de $ 270 millones de VC como Sequoia Capital, Andreessen Horowitz y otros, según un comunicado de prensa.

Pieter Abbeel, Peter Chen y Rocky Duan – Covariant

El trío trabajó en OpenAI en 2016 y 2017 como científicos de investigación antes de fundar Covariant, una startup con sede en Berkeley, California, que construye modelos de IA de la Fundación para robots. En 2024, Amazon contrató a los tres fundadores covariantes y aproximadamente una cuarta parte de su personal. La adquisición cuasi fue vista por algunos como parte de una tendencia más amplia de gran tecnología que intentaba evitar el escrutinio antimonopolio.

Maddie Hall – Carbono vivo

Maddie Hall trabajó en “proyectos especiales” en Operai, pero se fue en 2019 para cofundar Living Carbon, una startup con sede en San Francisco que tiene como objetivo crear plantas de ingeniería que puedan absorber más carbono del cielo para combatir el cambio climático. Living Carbon recaudó una ronda de la Serie A de $ 21 millones en 2023, lo que lleva su financiamiento total hasta entonces a $ 36 millones, según un comunicado de prensa.

Shariq Hashme – Prosper Robotics

Shariq Hashme trabajó para Openai durante 9 meses en 2017 en un bot que podría reproducir el popular videojuego Dota, según su perfil de LinkedIn. Después de unos años en la escala de startups de datos de datos de datos, cofundó Prosper Robotics con sede en Londres en 2021. La startup dice que está trabajando en un mayordomo robot para los hogares de las personas, una tendencia caliente en robótica en la que otros jugadores como 1X y Apptronik con sede en Noruega y Texas también están trabajando.

Jonas Schneider – Daedalus

Jonas Schneider lideró el equipo de Ingeniería de Robótica para la Ingeniería de Robótica, pero se fue en 2019 para cofundar Daedalus, que construye fábricas avanzadas para componentes de precisión. La startup con sede en San Francisco recaudó una serie A de $ 21 millones el año pasado con el respaldo de Khosla Ventures, entre otros.

Margaret Jennings – KindO

Margaret Jennings trabajó en Operai en 2022 y 2023 hasta que se fue para cofundar KindO, que se comercializa como un chatbot de IA para empresas. Kindo ha recaudado más de $ 27 millones en fondos, recaudando la última serie A de $ 20.6 millones en 2024. Jennings se fue de KindO en 2024 para encabezar productos e investigaciones en la startup francesa de IA Mistral, según su perfil de LinkedIn.

Noticias

El futuro está aquí: probar el modo de cámara en vivo de Gemini

Published

9 horas ago

26 abril, 2025

Sergio Villanueva

“Acabo de ver tus tijeras sobre la mesa, justo al lado del paquete verde de pistachos. ¿Las ves?”

La nueva y charlatis función de cámara de Gemini Live era correcta. Mis tijeras estaban exactamente donde decían que estaban, y todo lo que hice fue pasar mi cámara frente a ellas en algún momento durante una sesión en vivo de 15 minutos de mí dándole al chatbot Ai un recorrido por mi apartamento. Google ha estado implementando el nuevo modo de cámara a todos los teléfonos Android utilizando la aplicación Gemini de forma gratuita después de una exclusiva de dos semanas en Pixel 9 (incluidos los nuevos teléfonos inteligentes Pixel 9a) y Galaxy S5. Entonces, ¿qué es exactamente este modo de cámara y cómo funciona?

Cuando comienzas una sesión en vivo con Gemini, ahora tienes la opción de habilitar una vista de cámara en vivo, donde puedes hablar con el chatbot y preguntarle sobre cualquier cosa que ve la cámara. No solo puede identificar objetos, sino que también puede hacer preguntas sobre ellos, y funciona bastante bien en su mayor parte. Además, puede compartir su pantalla con Gemini para que pueda identificar cosas que sale a la superficie en la pantalla de su teléfono.

Cuando apareció la nueva función de cámara en mi teléfono, no dudé en probarla. En una de mis pruebas más largas, lo encendí y comencé a caminar por mi apartamento, preguntándole a Géminis qué vio. Identificó algunas frutas, chapstick y algunos otros artículos cotidianos sin ningún problema. Me sorprendió cuando encontró mis tijeras.

Eso es porque no había mencionado las tijeras en absoluto. Géminis los había identificado silenciosamente en algún lugar del camino y luego retiró la ubicación con precisión. Se sentía mucho como el futuro, tuve que hacer más pruebas.

Mi experimento con la función de cámara de Gemini Live fue seguir el liderazgo de la demostración que Google hizo el verano pasado cuando mostró por primera vez estas capacidades de IA de video en vivo. Géminis le recordó a la persona que dio la demostración donde había dejado sus gafas, y parecía demasiado bueno para ser verdad. Pero como descubrí, era muy cierto.

Gemini Live reconocerá mucho más que las probabilidades y fines del hogar. Google dice que te ayudará a navegar por una estación de tren abarrotada o descubrir el relleno de una masa. Puede brindarle información más profunda sobre obras de arte, como dónde se originó un objeto y si se trataba de una pieza de edición limitada.

Es más que una lente de Google mejorada. Hablas con eso y te habla. No necesitaba hablar con Gemini de ninguna manera en particular, era tan informal como cualquier conversación. Mucho mejor que hablar con el antiguo Asistente de Google que la compañía se está eliminando rápidamente.

Conversación en vivo de Géminis — Aquí hay un vistazo a parte de mi conversación con Gemini Live sobre los objetos que estaba viendo en mi apartamento.

Blake Stimac/Cnet

Google también lanzó un nuevo video de YouTube para la caída de píxeles de abril de 2025 que muestra la función, y ahora hay una página dedicada en Google Store para ello.

Para comenzar, puede ir a vivir con Gemini, habilitar la cámara y comenzar a hablar. Eso es todo.

Gemini Live sigue desde el proyecto Astra de Google, revelado por primera vez el año pasado como posiblemente la característica más grande de la compañía “estamos en el futuro”, un siguiente paso experimental para las capacidades generativas de IA, más allá de su simplemente escribir o incluso hablar en un chatbot como chatgpt, Claude o gemini. Se produce a medida que las empresas de IA continúan aumentando drásticamente las habilidades de las herramientas de IA, desde la generación de videos hasta la potencia de procesamiento en bruto. Similar a Gemini Live, está la inteligencia visual de Apple, que el fabricante de iPhone lanzó en forma beta a fines del año pasado.

Mi gran conclusión es que una característica como Gemini Live tiene el potencial de cambiar la forma en que interactuamos con el mundo que nos rodea, fusionando nuestros mundos digitales y físicos simplemente sosteniendo su cámara frente a casi cualquier cosa.

Puse a Géminis en vivo en una prueba real

La primera vez que lo probé, Gemini fue sorprendentemente preciso cuando coloqué un juego muy específico coleccionable de un conejo relleno en la vista de mi cámara. La segunda vez, se lo mostré a un amigo en una galería de arte. Identificó la tortuga en una cruz (no me preguntes) e inmediatamente identificó y tradujo el Kanji justo al lado de la tortuga, dándonos a los dos escalofríos y dejándonos más que un poco asustados. En el buen sentido, creo.

Este fue el primer objeto que probé con la nueva función de Gemini Live, y reconoció impresionantemente qué era y de qué juego era (Alice de American McGee). Cada vez que le pedía a Géminis que identifique el juego del que era el lujoso, fallaba.

Blake Stimac/Cnet

Pensé en cómo podría probar la función. Traté de grabarlo en la pantalla en acción, pero constantemente se desmoronó en esa tarea. ¿Y qué pasaría si saliera del camino golpeado con él? Soy un gran admirador del género de terror (películas, programas de televisión, videojuegos) y tengo innumerables coleccionables, baratijas y lo que tienes. ¿Qué tan bien le haría con cosas más oscuras, como mis coleccionables con temática de terror?

Las pruebas iniciales demostraron ser significativamente más exitosas que la anterior, a pesar de darle varias pistas. Gemini finalmente consiguió el juego, Silent Hill: el mensaje corto, pero aún no podía dar el nombre correcto para la figura, aterrizando solo en “Cherry Blossom Monster” en lugar de Sakurahead, que había adivinado correctamente varias veces antes.

Blake Stimac/Cnet

Primero, permítanme decir que Géminis puede ser absolutamente increíble y ridículamente frustrante en la misma ronda de preguntas. Tenía aproximadamente 11 objetos que le estaba pidiendo a Gemini que se identificara, y a veces empeoraba cuanto más tiempo funcionara la sesión en vivo, por lo que tuve que limitar las sesiones a solo uno o dos objetos. Supongo que Gemini intentó usar información contextual de objetos previamente identificados para adivinar nuevos objetos que se ponen al frente, lo que tiene sentido, pero en última instancia, ni yo ni yo nos beneficié de esto.

A veces, Géminis estaba en punto, aterrizando fácilmente las respuestas correctas sin problemas ni confusión, pero esto tendía a suceder con objetos más recientes o populares. Por ejemplo, me sorprendió cuando inmediatamente supuso que uno de mis objetos de prueba no era solo de Destiny 2, sino que fue una edición limitada de un evento estacional del año pasado.

En otras ocasiones, Gemini estaría fuera de la marca, y necesitaría darle más pistas para entrar en el estadio de la respuesta correcta. Y a veces, parecía que Géminis estaba tomando contexto de mis sesiones en vivo anteriores para encontrar respuestas, identificando múltiples objetos como provenientes de Silent Hill cuando no lo estaban. Tengo un caso de exhibición dedicado a la serie de juegos, por lo que pude ver por qué querría sumergirse en ese territorio rápidamente.

Esta fue la más difícil de mis pruebas. Le pedí a Gemini que identifique no solo de qué juego todavía era esto (Silent Hill 2), sino qué cita icónica, dijo la persona en la parte superior de las escaleras. Géminis clavó el juego, los personajes y la mitad de la cita en la primera ronda; Se necesitaron dos conjeturas más para terminar la cita: “¿También lo ves? Para mí, siempre es así”.

Blake Stimac/Cnet

Géminis puede obtener un error completo a veces. En más de una ocasión, Gemini identificó erróneamente uno de los artículos como un personaje inventado de la colina silenciosa inédita: F Juego, claramente fusionando piezas de diferentes títulos en algo que nunca fue. El otro error consistente que experimenté fue cuando Gemini producía una respuesta incorrecta, y lo corrigía e insinuaría más cerca de la respuesta, o directamente darle la respuesta, solo para que repita la respuesta incorrecta como si fuera una nueva suposición. Cuando eso sucedía, cerraría la sesión y comenzaría una nueva, que no siempre fue útil.

Un truco que encontré fue que algunas conversaciones lo hicieron mejor que otras. Si me desplazé por mi lista de conversación de Géminis, aproveché un viejo chat que había obtenido un elemento específico correcto, y entonces Volvió a vivir de nuevo desde ese chat, podría identificar los elementos sin problemas. Si bien eso no es necesariamente sorprendente, fue interesante ver que algunas conversaciones funcionaron mejor que otras, incluso si usó el mismo idioma.

Google no respondió a mis solicitudes de más información sobre cómo funciona Gemini Live.

I buscado Géminis para responder con éxito mis preguntas a veces altamente específicas, así que proporcioné muchas pistas para llegar allí. Los empujones a menudo eran útiles, pero no siempre. A continuación hay una serie de objetos que intenté que Gemini identifique y proporcione información.