Connect with us

Noticias

CHATGPT-4 para abordar las preguntas frecuentes centradas en el paciente en la práctica clínica de degeneración macular relacionada con la edad

Published

on

Un grupo diverso de médicos oculares evaluó las respuestas de ChatGPT-4 a preguntas frecuentes sobre AMD como coherente, objetiva, integral y segura. El dominio de coherencia se evaluó más alto, seguido de seguridad, realidad y amplitud. Si bien las puntuaciones Likert fueron generalmente agradables a nivel de grupo, las calificaciones de los evaluadores fueron variables, con más de la mitad de las preguntas que obtuvieron una puntuación inferior a 4 dentro de los dominios de hecho e integridad. Los comentarios de texto libre identificaron áreas de déficit, y un número sustancial de preguntas obtenidas por debajo de un nivel de “acuerdo” en los dominios de calidad clave, especialmente con respecto a la realidad, la especificidad y la aplicabilidad de la información, y su contextualización.

Rendimiento de ChatGPT-4 al responder a las preguntas frecuentes en AMD

Ferro Desideri et al. [15] Comparó los tres LLM en responder asesoramiento médico general (15 preguntas) y consejos relacionados con inyecciones intravítreas (13 preguntas) para AMD y utilizaron tres especialistas en Retina para evaluar su precisión y suficiencia (amplitud). Específico para el rendimiento de ChatGPT, los autores encontraron que las respuestas de 12/15 a las preguntas generales de asesoramiento médico se consideraron precisas y suficientes, y las otras tres respuestas fueron parcialmente precisas y suficientes. Para las preguntas relacionadas con las inyecciones intravítreas, las respuestas 10/13 se consideraron precisas y suficientes, y tres fueron parcialmente precisas y suficientes. Estos resultados sugirieron una visión optimista de las respuestas LLM. Sin embargo, su estudio no informó sobre qué características de las respuestas se consideraron solo parcialmente precisas. Además, aunque los autores informaron un alto nivel de suficiencia de las respuestas (análogos a la amplitud en nuestro trabajo actual), nuestros resultados demostraron calificaciones más bajas en este dominio de calidad. El enfoque metodológico también difería, ya que nuestro estudio utilizó una escala Likert, que proporciona más granularidad que su calificación descriptiva trinarizada. Como se indica en los métodos, una escala de 5 puntos permite la expresión de puntos de vista más “extremos” y opiniones más templadas (y, por lo tanto, granularidad), en relación con una escala de 3 puntos, al tiempo que mantiene una mayor eficiencia y una confiabilidad de prueba potencialmente mejor en comparación con escalas más grandes, como una escala de 10 puntos, como una escala de 10 puntos, como una escala de 10 puntos [20].

Cheong et al. [16] Evaluó las respuestas de varios chatbots, incluido el chatgpt-4, con las preguntas relacionadas con la mácula y la retina. Tres especialistas en la retina capacitados en becas evaluaron las respuestas de chatbot utilizando una escala Likert de 3 puntos (0–2) y resumieron los puntajes en los grados para reflejar un enfoque de consenso para la evaluación. Descubrieron que el 83.3% de las respuestas de ChatGPT-4 a las preguntas de AMD eran “buenas” (su calificación más alta), sin ninguna de las respuestas consideradas “pobres” (su calificación más baja). ChatGPT-4 (y 3.5) superó a los otros chatbots en el estudio, y los autores concluyeron que son potencialmente capaces de responder preguntas relacionadas con enfermedades retinianas, como la AMD. Diferencias entre nuestro presente estudio y el trabajo de Cheong et al. [16] incluyó el alcance de las preguntas y el método de clasificación. Su lista de preguntas de AMD se relacionó principalmente temáticamente con el tratamiento y el asesoramiento asociado, como las vitaminas y los procesos relacionados con las inyecciones intravítreas, con algunas preguntas altamente específicas (como una pregunta relacionada con verteporfina (Visudyne, Bausch y Lomb, Ontario, Canadá) y Ranibizumab (Lucentis, novartis AG, Basel, suiza); no es probable que el Chatbot, no sea el Chatbot, lo que usa el Chatbot, lo que usa el Chatbot. término). Si bien su enfoque de consenso fue útil para obtener una impresión general de calidad, no facilitó el análisis de la variabilidad entre los calificadores.

Muntean et al. [17] realizó un estudio que comparó las respuestas de ChatGPT-4, Palm2 y tres oftalmólogos con preguntas de escenario específicas, incorporando una viñeta de fondo (como la que Asker de la pregunta es un paciente con AMD) que puede ser relevante para formular el resultado. Utilizando estas permutaciones, los autores analizaron los resultados de 133 preguntas a lo largo de seis ejes de calidad, algunos de los cuales se superpusieron con nuestros dominios de calidad. Utilizando dos revisores de oftalmólogos, los autores informaron resultados muy positivos para las respuestas de ChatGPT 4, con el 88-100% de las respuestas que obtuvieron una puntuación perfecta de 5 (en una escala Likert de 5 puntos) que fueron más altas en comparación con nuestros resultados. Las diferencias clave entre su metodología y el presente estudio podrían explicar las diferencias en los resultados. Una diferencia fue la amplitud del sistema y el usuario indica la entrada de Muntean et al. [17]que incluye varias advertencias importantes, dos de las cuales fueron para preguntarle al chatbot para explicar por qué una pregunta puede no tener sentido en lugar de responder una pregunta confusa o incorrecta, y no compartir información falsa si el chatbot no sabe la respuesta. Hubo muchos casos en el presente estudio en los que la información no era precisa o relevante para la pregunta, lo que podría abordarse mediante la inclusión de estas indicaciones. Prefañar y contextualizar la pregunta podría ayudar a proporcionar asesoramiento más relevante y seguro en las respuestas. A pesar del optimismo en la mayoría de los dominios de calidad, Muntean et al. [17] También resalte los déficits relacionados con las respuestas en términos de su reflejo del consenso clínico y científico (es decir, el conocimiento médico contemporáneo y correcto) y no falta información importante, similar a las críticas planteadas en nuestros resultados.

En general, la literatura previa relacionada con el uso de chatbot en AMD ha sido principalmente positiva, especialmente con respecto a la precisión y la integridad de las respuestas. Sin embargo, nuestro estudio fue relativamente menos positivo, posiblemente debido a una mayor diversidad de calificadores, una gama más amplia de preguntas y el uso de una escala Likert de 5 puntos en más dominios de calidad. Como era de esperar, si bien la coherencia era el dominio mejor calificado, su importancia es posiblemente menor que la de seguridad y realidad, ya que estos reflejan los riesgos potenciales para la comunidad con el uso de chatbot no supervisado.

Variabilidad en las evaluaciones entre evaluadores y por grupo profesional

El equipo diverso de evaluadores en el presente estudio indica que la precisión o utilidad de los chatbots puede diferir dependiendo del entorno clínico y la base de pacientes. Por ejemplo, las prácticas optométricas generales tienen más probabilidades de ver a los pacientes en riesgo de AMD o con etapas anteriores de AMD. Por el contrario, las clínicas de oftalmología especializadas tienen más probabilidades de ver pacientes con etapas más avanzadas de AMD y aquellos que requieren tratamientos, como inyecciones intravítreas. Otros servicios específicos, como clínicas de baja visión y configuraciones de atención colaborativa, también pueden afectar la base de pacientes y la información esperada del chatbot [22, 23].

El grupo optometrista devolvió clasificaciones más bajas en comparación con el grupo de oftalmólogo. Una explicación para esto puede ser la actitud más conservadora del grupo optometrista, que comprendía a los médicos que trabajan en un entorno principalmente académico. Las críticas relacionadas con la integridad de las respuestas de chatbot pueden reflejar un hábito profesional de cubrir más información y contenido, dado más tiempo de asistencia por parte del grupo profesional. El entorno clínico académico puede reflejar una actitud más crítica del grupo optometrista en el presente estudio, buscando un lenguaje más preciso con respecto a los resultados de chatbot.

Otra explicación es la posible heterogeneidad entre todos los evaluadores, y la aceptabilidad de diferentes niveles de precisión de las declaraciones de chatbot. Aunque existen pautas para el cuidado de pacientes con AMD [24,25,26]las diferencias a nivel profesional también pueden inyectar sesgos en la interpretación de las salidas de chatbot. A pesar de las pautas autorizadas, también se sabe que el consenso sobre las declaraciones sobre la AMD y entre las profesiones puede ser difícil de lograr, debido a la amplia heterogeneidad de las prácticas clínicas y la presentación del paciente. [27].

Separar dominios de calidad en la evaluación de las respuestas de chatbot

Se esperaba la coherencia que se calificó más alto, dada la naturaleza de la tecnología LLM Chatbot [28]. Este dominio de la calidad de respuesta de chatbot tiende a estar altamente calificado dentro de la literatura en muchos campos. Un problema notable fue la falta de citas en algunas de las respuestas. [29].

En cuanto a la seguridad, una característica de muchas de las respuestas fueron recomendaciones para buscar asesoramiento experto de un profesional de la atención. Esto fue particularmente importante para las preguntas temáticas del tratamiento. Sin embargo, varias preguntas fueron calificadas de manera pobre en seguridad por otras razones, especialmente debido a los malos consejos sobre pruebas o intervenciones innecesarias. Un ejemplo que fue criticado repetidamente fueron las pruebas genéticas, que, en el momento del estudio, no es una prueba clínica de rutina para AMD [30].

La fáctica también tenía muchas preguntas con calificaciones subóptimas. Un problema planteado por Muntean et al. [17] fue el papel de las indicaciones del sistema para garantizar una respuesta apropiada, y las respuestas a nuestro enfoque destacaron aún más fallas de prominencia de la información. Varias de las respuestas de chatbot pueden haber sido estrictamente ciertas, pero estaban muy alejadas de la práctica clínica rutinaria, y la falta de priorización de información importante significaba que los hechos no estaban representados con precisión.

El problema de la prominencia de la información también se reflejó en puntajes de baja integridad. Las respuestas de chatbot a veces incluirían información de nicho, como ayudas de baja visión y telescopios. Muntean et al. [17] Intentó evitar esta limitación agregando el escenario de un paciente para prefacionar la pregunta. Sin embargo, nuevamente, un laico que usa la tecnología LLM puede no tener la experiencia para agregar esta información para optimizar la respuesta. Una limitación de los LLM previamente capacitados es la información potencial anticuada, donde las tecnologías y tratamientos emergentes no pueden incluirse en las respuestas.

Limitaciones

Hemos descrito previamente las limitaciones del enfoque de calificación subjetiva para evaluar las respuestas de LLM [18]. Las combinaciones de Likert de múltiples puntos u otras escalas granulares y tener más alumnos pueden ayudar a superar los datos subjetivos sesgados. Aunque las escalas Likert de 5 puntos son más granulares que las escalas trinarias, todavía existe el potencial de los efectos de techo o piso [31]. Esto se vio con muchas de las preguntas con un puntaje de 4 o más. Los estudios de esta naturaleza también carecen de una verdad fundamental, en lugar de depender de la validez determinada por los expertos. Los estándares de referencia están disponibles al comparar diferentes LLM o resultados expertos generados por humanos, pero también tienen problemas con la subjetividad.

Nuestra lista de preguntas fue comisariada de varias fuentes autorizadas y, en gran parte, se simplificó para fines de brevedad. Como se describió anteriormente, cómo se ingresan las preguntas en los chatbots pueden contribuir a la generación de respuesta. Nuestro objetivo era mantener las preguntas simples y amplias. Los estudios futuros con más granularidad podrían proporcionar más información.

Finalmente, comprender más a fondo la implementación clínica requeriría la entrada del usuario final, como los pacientes en riesgo o que tienen AMD. Junto con una mayor consulta de partes interesadas, existen desafíos éticos bien documentados que ocurren en paralelo a los problemas clínicos de precisión, con muchas preocupaciones como la privacidad y la seguridad, la propiedad intelectual, la transparencia y la responsabilidad, el sesgo y la explicabilidad, entre otros [32]. Esta es otra consideración para los médicos antes del despliegue generalizado.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Chatgpt o3 La función de ubicación de la foto es una locura buena

Published

on

Operai lanzó dos poderosos modelos de razonamiento hace unos días que hacen que Chatgpt sea aún más impresionante. Estos son O3 y O4-Mini que puedes probar de inmediato en ChatGPT. Son mucho mejores en el razonamiento que sus predecesores y pueden sobresalir en la codificación y las matemáticas si esos son sus pasatiempos.

Sin embargo, la nueva función de cambio de cabeza de ChatGPT en O3 y O4-Mini es, al menos para mí, la capacidad de la IA para interpretar los datos en las imágenes. Esencialmente, ChatGPT tiene una visión por computadora como en las películas, incluidas las capacidades de razonamiento que permiten que la IA extraiga los datos de ubicación de las fotos. Puedes preguntarle a la IA: “¿Dónde se tomó esta foto?” Y la IA hará todo lo que esté en su poder para responder.

Chatgpt O3 y O4-Mini obtendrán las cosas bien, como estás a punto de ver en mi prueba altamente científica que sigue. Es decir, harán las cosas bien incluso si trato de usar AI para engañar a Chatgpt.

Porque sí, usé GPT-4O Generation para crear una foto realista de una ubicación de esquí bien conocida en los Alpes en lugar de subir una imagen real. Luego le dije a ChatGPT que alterara esa imagen de una manera que cambiaría el horizonte.

Después de eso, comencé nuevas chats con O3 y O4-Mini, convencido de que ChatGPT reconocería la ubicación en la foto falsa que acababa de enviar. No me equivoqué; Ambos modelos me dieron el resultado que esperaba, demostrando que puede usar contenido generado por IA para engañar a la IA. Pero, sin embargo, me volaron la mente.

Recientemente le expliqué cómo los algoritmos de Apple Watch me decepcionan mientras esquiaba la semana pasada, y eso es lo que usé como inspiración en mi experimento para engañar a la IA.

Le pedí a ChatGPT que generara una foto que mostrara el conocido Matterhorn Peak en un día soleado, con esquiadores disfrutando de su tiempo. La foto tenía que tener una relación de aspecto de 16: 9 y parecerse a una foto de iPhone.

Fuente de la imagen: Chris Smith, BGR

Le dije a la IA que pusiera una góndola por si acaso, pero, como puede ver en el primer intento, que Góndola no iba a lugares. No importa; Solo necesitaba una primera imagen de la IA para poder alterarla. Ingrese la siguiente imagen:

Le indiqué a ChatGPT que eliminara la góndola y colocara un pico más pequeño de Matterhorn hacia la derecha.

Fuente de la imagen: Chris Smith, BGR

Tomé una captura de pantalla de la imagen para que no preservara ningún metadato, y luego convertí el archivo en una foto JPG:

Fuente de la imagen: Chris Smith, BGR

Luego, comencé dos chats separados, con Chatgpt O3 y Chatgpt O4-Mini, donde subí la foto falsa de Matterhorn y le pedí a la IA que me dijera dónde se tomó la foto y cómo la descubrieron.

Como era de esperar, ambos modelos de IA de razonamiento identificaron con éxito Matterhorn como la ubicación.

Chatgpt o3

Primero, tenemos O3, que me dio amplios detalles sobre cómo determinó la ubicación. La IA tiene una confianza increíblemente segura en su respuesta, diciéndome que “picos flanqueantes como el Dent Blanche y Weisshorn” son letreros.

Fuente de la imagen: Chris Smith, BGR

Tenía una sonrisa en mi rostro. Había vencido a la IA, con ai Haciéndolo reconocer la ubicación en una foto falsa. Era aún mejor que el O3 estuviera tan seguro de sí mismo después de solo 34 segundos de pensamiento.

Fuente de la imagen: Chris Smith, BGR

Pero luego pensé que empujaría las cosas más para que pudiera averiguar que la imagen era falsa. Le pedí que dibujara círculos sobre Dent Blanche y Weisshorn.

Fuente de la imagen: Chris Smith, BGR

Aquí es donde ver a O3 en acción me voló. Esta vez, la IA pasó casi seis minutos mirando la foto, tratando de identificar de manera confiable los dos picos que dijo que podía ver en la distancia.

Como verá, el Mini Matterhorn a la derecha inmediatamente arrojó la IA, pero Chatgpt no se detuvo allí. Seguía mirando la foto y buscó en la web imágenes de la región Alps donde se encuentran estos picos.

Fuente de la imagen: Chris Smith, BGR

También observó la foto para determinar la ubicación relativa de los picos adicionales en la región. “Puedo intentar superponer a los máximos locales aproximados basados ​​en el brillo, pero honestamente, creo que es más fácil usar mis ojos para esto”, pensó O3, y me sorprendió leerlo.

Fuente de la imagen: Chris Smith, BGR

La IA pasó a acercarse para ver mejor las partes de la foto de IA falsa:

Fuente de la imagen: Chris Smith, BGR

Recortó partes de la imagen tratando de descubrir detalles que esperaría estar allí en una foto real de las áreas que rodean el Matterhorn. En su cadena de pensamiento, Chatgpt dijo que no podía detectar formas de montaña que pensaba que debería estar allí.

Fuente de la imagen: Chris Smith, BGR

La IA comenzó a anotar la imagen, buscando la respuesta mientras continuaba buscando en la web más imágenes que lo ayudarían a determinar la ubicación de los dos picos que le pedí que colocara círculos rojos.

Como puede ver, el falso Mini-Matterhorn a la derecha seguía engañando a la IA.

Fuente de la imagen: Chris Smith, BGR

En última instancia, ChatGPT O3 reconoció las incertidumbres, pero aún así decidió marcar los dos picos que pedí. Ejecutó el código en el chat y me dio la siguiente imagen.

Me hubiera encantado ver Chatgpt O3 llamar a mi farol y decirme que esta foto no es real. Quizás las versiones futuras de la IA puedan hacerlo. Pero debo decir que leer esos cinco minutos de “pensamiento”, la mayoría de ellos vistos en la imagen de arriba, fue aún mejor.

Imagen de captura de pantalla Fuente: Chris Smith, BGR

Me mostró que AI está trabajando para hacer el trabajo y reforzar mi idea de que la visión por computadora de IA es increíble en estas nuevas versiones de ChatGPT.

Pero espera, se vuelve mejor.

Chatgpt o4-mini

Mi experimento no se puede hacer sin usar ChatGpt O4-Mini. Después de todo, O4-Mini es el precursor de O4, que debería ser incluso mejor que O3. O4-Mini fue mucho más rápido que O3 al darme la respuesta.

Fuente de la imagen: Chris Smith, BGR

La IA pensó durante 15 segundos, durante los cuales apareció imágenes de Internet para respaldar su opinión que la foto que había subido era una imagen real del Matterhorn.

O4-Mini también explicó cómo identificaba la ubicación, pero se sentía seguro de que era correcto al respecto. Este es el Matterhorn, dado todo lo que ha aprendido de la Web.

Fuente de la imagen: Chris Smith, BGR

A diferencia de ChatGPT O3, O4-Mini no mencionó los picos adicionales. Pero le pedí a O4-Mini que hiciera lo mismo que O3: Identifique a Dent Blanche y Weisshorn.

O4-Mini me voló con su velocidad aquí. Tomó 18 segundos darme la siguiente imagen, que tiene círculos rojos alrededor de los dos picos.

Fuente de la imagen: Chris Smith, BGR

Sí, no es un gran trabajo, y no tengo idea de por qué la IA coloca esos círculos allí porque la transcripción más limitada de la cadena de pensamiento no lo explica.

Obviamente es incorrecto, considerando que estamos trabajando con una imagen de IA falsa aquí. Y sí, O4-Mini no podía decir que la foto era falsa.

El verdadero materia

Las conclusiones son obvias, y no todas son grandes noticias.

Primero, la generación de imágenes 4O puede ser fácilmente abusada. En realidad, nunca he visto el Matterhorn en persona, y por eso le pedí a la IA que hiciera esta imagen específica. Reconocí su famosa silueta de las fotos de la vida real, pero definitivamente no estoy familiarizado con los otros picos de la región. Esto demuestra que las imágenes creadas por Chatgpt pueden engañar a las personas. También pueden engañar a otros modelos de IA.

En segundo lugar, O3 y O4-Mini son simplemente increíbles al analizar los datos en las imágenes. Por supuesto, tienen que serlo. Si 4O puede crear fotos impresionantes y realistas, es porque la IA puede interpretar los datos en las imágenes.

En tercer lugar, encontrar información de ubicación de las fotos será trivialmente fácil para modelos OpenAI como O3 y O4-Mini. Los competidores probablemente obtendrán poderes similares. Este es un problema de privacidad que tendremos que tener en cuenta en el futuro.

Cuarto, ChatGPT O3 se toma muy en serio el trabajo de razonamiento. Si pasó todo ese tiempo en una foto de IA falsa tratando de igualarlo con el mundo real, pasará un tiempo similar en otros trabajos que podría lanzarle, y usará un montón de herramientas disponibles en ChatGPT (como codificación, búsqueda web, manipulación de imágenes) para hacer el trabajo.

Estoy seguro de que si hubiera pasado más tiempo con el razonamiento de la IA sobre la imagen, finalmente llegaríamos a la conclusión de que la imagen que la IA estaba investigando era falsa.

Quinto, ChatGpt O4-Mini puede ser realmente rápido. Demasiado rápido. Es algo que quieres de Genai Chatbots, pero también algo de lo que preocuparse. O4-Mini tampoco reconoció la foto falsa, pero su enfoque era mucho más descuidado. Eso me hace pensar que debes prestar atención adicional al trabajar con la versión Mini para asegurar que la IA haga el trabajo. Pero bueno, estoy trabajando con un experimento muy limitado aquí.

Finalmente, aquí está el Matterhorn y el área circundante de un clip de YouTube que se cargó en diciembre de 2020. Digo que, porque, en la era de la IA, el video que estás a punto de ver siempre podría ser falso. El video te brinda una “vista desde arriba del Nordwand de Weisshorn mirando hacia Matterhorn (L) y Dent Blanche (R). Mt Blanc es visible en la distancia (lejos R)”. Es un ángulo diferente, pero al menos lo suficientemente bueno como para darle una idea de lo que Chatgpt O3 estaba buscando.

Continue Reading

Noticias

La mafia Operai: 15 de las nuevas empresas más notables fundadas por ex alumnos

Published

on

Mudarse, PayPal Mafia: hay una nueva mafia tecnológica en Silicon Valley. Como la startup detrás de ChatGPT, Operai es posiblemente el mayor jugador de IA de la ciudad. Su aumento meteórico a una valoración de $ 300 mil millones ha estimulado a muchos empleados a dejar al gigante de la IA para crear sus propias nuevas empresas.

La exageración alrededor de Openai es tan alta que algunas de estas nuevas empresas, como la superinteligencia segura de Ilya Sutskever y el Laboratorio de Máquinas de Pensamiento de Mira Murati, han podido recaudar miles de millones de dólares sin siquiera lanzar un producto.

Pero hay muchas otras startups en el ecosistema de la mafia Operai. Estos van desde la perplejidad del gigante de búsqueda de IA hasta Xai, el nuevo propietario de X (anteriormente Twitter). También hay atuendos más pequeños con algunos planes futuristas, como Living Carbon, que está creando plantas que absorben más carbono de la atmósfera, o prosperan la robótica, que está construyendo un mayordomo robot.

A continuación se muestra un resumen de las nuevas empresas más notables fundadas por ex alumnos de Operai.

Dario Amodei, Daniela Amodei y John Schulman – Anthrope

Los hermanos Dario y Daniela Amodei se fueron OpenAi en 2021 para formar su propia startup, Anthrope, con sede en San Francisco, que durante mucho tiempo ha promocionado un enfoque en la seguridad de la IA. Más tarde, el cofundador de Operai, John Schulman, se unió a Anthrope en 2024, comprometiéndose a construir un “AGI seguro”. Según los informes, Openai permanece varias veces más grande que Anthrope por ingresos ($ 3.7 mil millones en comparación con $ 1 mil millones para 2024, informó la información). Pero Anthrope ha crecido rápidamente para convertirse en el mayor rival de Openai y fue valorado en $ 61.5 mil millones en marzo de 2025.

Ilya Sutskever – Superinteligencia segura

El cofundador y científica jefe de Operai, Ilya Sutskever, se fue Openai en mayo de 2024 después de que, según los informes, formó parte de un esfuerzo fallido para reemplazar al CEO Sam Altman. Poco después, cofundó una superinteligencia segura, o SSI, con “un objetivo y un producto: una superinteligencia segura”, dice. Detalles sobre qué es exactamente la startup es escasa: aún no tiene producto ni ingresos. Pero los inversores claman por una pieza de todos modos, y ha podido recaudar $ 2 mil millones, y su última valoración aumenta a $ 32 mil millones este mes. SSI tiene su sede en Palo Alto, California y Tel Aviv, Israel.

Mira Murati – Laboratorio de máquinas de pensamiento

Mira Murati, el CTO de OpenAi, se fue de Openai el año pasado para fundar su propia compañía, Thinking Machines Lab, que surgió del sigilo en febrero de 2025, anunciando (bastante vagamente) que construirá IA que sea más “personalizable” y “capaz”. La startup de la IA de San Francisco no tiene ningún producto ni ingresos, pero muchos ex investigadores de Top OpenAI y, según los informes, está en el proceso de recaudar una ronda de semillas masivas de $ 2 mil millones que lo valora a $ 10 mil millones, mínimo.

Aravind Srinivas – Perplejidad

Aravind Srinivas trabajó como científico de investigación en OpenAI durante un año hasta 2022, cuando dejó a la compañía para cofundar la perplejidad del motor de búsqueda de IA. Su startup ha atraído una serie de inversores de alto perfil como Jeff Bezos y Nvidia, aunque también ha causado controversia sobre el presunto raspado web poco ético. La perplejidad, con sede en San Francisco, actualmente está recaudando alrededor de $ 1 mil millones a una valoración de $ 18 mil millones a marzo de 2025.

Kyle Kosic – Xai

Kyle Kosic se fue Openai en 2023 para convertirse en cofundador e líder de infraestructura de Xai, la startup de IA de Elon Musk que ofrece un chatbot rival, Grok. En 2024, sin embargo, regresó a Openai. Xai, con sede en Palo Alto, adquirió recientemente X, anteriormente Twitter, y le dio a la entidad combinada una valoración de $ 113 mil millones. La transacción de todo el stock levantó algunas cejas, pero es un buen negocio si está apostando por el imperio de Musk.

Emmett Shear – STEM AI

Emmett Shear es el ex CEO de Twitch que fue el CEO interino de OpenAI en noviembre de 2023 durante unos días antes de que Sam Altman se uniera a la compañía. Shear está trabajando en su propia startup sigilosa, llamada Stem AI, TechCrunch reveló en 2024. Aunque hay pocos detalles sobre su actividad y recaudación de fondos hasta ahora, ya ha atraído fondos de Andreessen Horowitz.

Andrej Karpathy – Eureka Labs

El experto en visión por computadora Andrej Karpathy fue miembro fundador y científico de investigación en OpenAI, dejando que la startup se uniera a Tesla en 2017 para liderar su programa de piloto automático. Karpathy también es conocido por sus videos de YouTube que explican conceptos de Core AI. Dejó Tesla en 2024 para encontrar su propia startup de tecnología educativa, Eureka Labs, una startup con sede en San Francisco que está construyendo asistentes de enseñanza de IA.

Jeff Arnold – Piloto

Jeff Arnold trabajó como Jefe de Operaciones de OpenAi durante cinco meses en 2016 antes de cofundar Pilot de Contabilidad de Contabilidad con sede en San Francisco en 2017. Pilot, que se centró inicialmente en contabilizar las nuevas empresas, recaudó una última serie de $ 100 millones en la serie C en 2021 con una valoración de $ 1.2 mil millones y ha atraído a inversores como Jeff Bamos. Arnold trabajó como COO de Pilot hasta que se fue en 2024 para lanzar un fondo VC.

David Luan – Adept Ai Labs

David Luan fue el vicepresidente de ingeniería de OpenAI hasta que se fue en 2020. Después de un período en Google, en 2021 cofundó Adept Ai Labs, una startup que construye herramientas de IA para los empleados. La startup recaudó por última vez $ 350 millones a una valoración al norte de $ 1 mil millones en 2023, pero Luan se fue a fines de 2024 para supervisar el laboratorio de agentes de IA de Amazon después de que Amazon contrató a los fundadores de Adept.

Tim Shi – Cresta

Tim Shi fue uno de los primeros miembros del equipo de Operai, donde se centró en construir una inteligencia general artificial segura (AGI), según su perfil de LinkedIn. Trabajó en Openai durante un año en 2017, pero se fue para fundar Cresta, una startup del Centro de Contacto AI con sede en San Francisco que ha recaudado más de $ 270 millones de VC como Sequoia Capital, Andreessen Horowitz y otros, según un comunicado de prensa.

Pieter Abbeel, Peter Chen y Rocky Duan – Covariant

El trío trabajó en OpenAI en 2016 y 2017 como científicos de investigación antes de fundar Covariant, una startup con sede en Berkeley, California, que construye modelos de IA de la Fundación para robots. En 2024, Amazon contrató a los tres fundadores covariantes y aproximadamente una cuarta parte de su personal. La adquisición cuasi fue vista por algunos como parte de una tendencia más amplia de gran tecnología que intentaba evitar el escrutinio antimonopolio.

Maddie Hall – Carbono vivo

Maddie Hall trabajó en “proyectos especiales” en Operai, pero se fue en 2019 para cofundar Living Carbon, una startup con sede en San Francisco que tiene como objetivo crear plantas de ingeniería que puedan absorber más carbono del cielo para combatir el cambio climático. Living Carbon recaudó una ronda de la Serie A de $ 21 millones en 2023, lo que lleva su financiamiento total hasta entonces a $ 36 millones, según un comunicado de prensa.

Shariq Hashme – Prosper Robotics

Shariq Hashme trabajó para Openai durante 9 meses en 2017 en un bot que podría reproducir el popular videojuego Dota, según su perfil de LinkedIn. Después de unos años en la escala de startups de datos de datos de datos, cofundó Prosper Robotics con sede en Londres en 2021. La startup dice que está trabajando en un mayordomo robot para los hogares de las personas, una tendencia caliente en robótica en la que otros jugadores como 1X y Apptronik con sede en Noruega y Texas también están trabajando.

Jonas Schneider – Daedalus

Jonas Schneider lideró el equipo de Ingeniería de Robótica para la Ingeniería de Robótica, pero se fue en 2019 para cofundar Daedalus, que construye fábricas avanzadas para componentes de precisión. La startup con sede en San Francisco recaudó una serie A de $ 21 millones el año pasado con el respaldo de Khosla Ventures, entre otros.

Margaret Jennings – KindO

Margaret Jennings trabajó en Operai en 2022 y 2023 hasta que se fue para cofundar KindO, que se comercializa como un chatbot de IA para empresas. Kindo ha recaudado más de $ 27 millones en fondos, recaudando la última serie A de $ 20.6 millones en 2024. Jennings se fue de KindO en 2024 para encabezar productos e investigaciones en la startup francesa de IA Mistral, según su perfil de LinkedIn.

Continue Reading

Noticias

El futuro está aquí: probar el modo de cámara en vivo de Gemini

Published

on

“Acabo de ver tus tijeras sobre la mesa, justo al lado del paquete verde de pistachos. ¿Las ves?”

La nueva y charlatis función de cámara de Gemini Live era correcta. Mis tijeras estaban exactamente donde decían que estaban, y todo lo que hice fue pasar mi cámara frente a ellas en algún momento durante una sesión en vivo de 15 minutos de mí dándole al chatbot Ai un recorrido por mi apartamento. Google ha estado implementando el nuevo modo de cámara a todos los teléfonos Android utilizando la aplicación Gemini de forma gratuita después de una exclusiva de dos semanas en Pixel 9 (incluidos los nuevos teléfonos inteligentes Pixel 9a) y Galaxy S5. Entonces, ¿qué es exactamente este modo de cámara y cómo funciona?

Cuando comienzas una sesión en vivo con Gemini, ahora tienes la opción de habilitar una vista de cámara en vivo, donde puedes hablar con el chatbot y preguntarle sobre cualquier cosa que ve la cámara. No solo puede identificar objetos, sino que también puede hacer preguntas sobre ellos, y funciona bastante bien en su mayor parte. Además, puede compartir su pantalla con Gemini para que pueda identificar cosas que sale a la superficie en la pantalla de su teléfono.

Cuando apareció la nueva función de cámara en mi teléfono, no dudé en probarla. En una de mis pruebas más largas, lo encendí y comencé a caminar por mi apartamento, preguntándole a Géminis qué vio. Identificó algunas frutas, chapstick y algunos otros artículos cotidianos sin ningún problema. Me sorprendió cuando encontró mis tijeras.

Eso es porque no había mencionado las tijeras en absoluto. Géminis los había identificado silenciosamente en algún lugar del camino y luego retiró la ubicación con precisión. Se sentía mucho como el futuro, tuve que hacer más pruebas.

Mi experimento con la función de cámara de Gemini Live fue seguir el liderazgo de la demostración que Google hizo el verano pasado cuando mostró por primera vez estas capacidades de IA de video en vivo. Géminis le recordó a la persona que dio la demostración donde había dejado sus gafas, y parecía demasiado bueno para ser verdad. Pero como descubrí, era muy cierto.

Gemini Live reconocerá mucho más que las probabilidades y fines del hogar. Google dice que te ayudará a navegar por una estación de tren abarrotada o descubrir el relleno de una masa. Puede brindarle información más profunda sobre obras de arte, como dónde se originó un objeto y si se trataba de una pieza de edición limitada.

Es más que una lente de Google mejorada. Hablas con eso y te habla. No necesitaba hablar con Gemini de ninguna manera en particular, era tan informal como cualquier conversación. Mucho mejor que hablar con el antiguo Asistente de Google que la compañía se está eliminando rápidamente.

Conversación en vivo de Géminis

Ampliar imagen

Conversación en vivo de Géminis

Aquí hay un vistazo a parte de mi conversación con Gemini Live sobre los objetos que estaba viendo en mi apartamento.

Blake Stimac/Cnet

Google también lanzó un nuevo video de YouTube para la caída de píxeles de abril de 2025 que muestra la función, y ahora hay una página dedicada en Google Store para ello.

Para comenzar, puede ir a vivir con Gemini, habilitar la cámara y comenzar a hablar. Eso es todo.

Gemini Live sigue desde el proyecto Astra de Google, revelado por primera vez el año pasado como posiblemente la característica más grande de la compañía “estamos en el futuro”, un siguiente paso experimental para las capacidades generativas de IA, más allá de su simplemente escribir o incluso hablar en un chatbot como chatgpt, Claude o gemini. Se produce a medida que las empresas de IA continúan aumentando drásticamente las habilidades de las herramientas de IA, desde la generación de videos hasta la potencia de procesamiento en bruto. Similar a Gemini Live, está la inteligencia visual de Apple, que el fabricante de iPhone lanzó en forma beta a fines del año pasado.

Mi gran conclusión es que una característica como Gemini Live tiene el potencial de cambiar la forma en que interactuamos con el mundo que nos rodea, fusionando nuestros mundos digitales y físicos simplemente sosteniendo su cámara frente a casi cualquier cosa.

Puse a Géminis en vivo en una prueba real

La primera vez que lo probé, Gemini fue sorprendentemente preciso cuando coloqué un juego muy específico coleccionable de un conejo relleno en la vista de mi cámara. La segunda vez, se lo mostré a un amigo en una galería de arte. Identificó la tortuga en una cruz (no me preguntes) e inmediatamente identificó y tradujo el Kanji justo al lado de la tortuga, dándonos a los dos escalofríos y dejándonos más que un poco asustados. En el buen sentido, creo.

Este fue el primer objeto que probé con la nueva función de Gemini Live, y reconoció impresionantemente qué era y de qué juego era (Alice de American McGee). Cada vez que le pedía a Géminis que identifique el juego del que era el lujoso, fallaba.

Blake Stimac/Cnet

Pensé en cómo podría probar la función. Traté de grabarlo en la pantalla en acción, pero constantemente se desmoronó en esa tarea. ¿Y qué pasaría si saliera del camino golpeado con él? Soy un gran admirador del género de terror (películas, programas de televisión, videojuegos) y tengo innumerables coleccionables, baratijas y lo que tienes. ¿Qué tan bien le haría con cosas más oscuras, como mis coleccionables con temática de terror?

Las pruebas iniciales demostraron ser significativamente más exitosas que la anterior, a pesar de darle varias pistas. Gemini finalmente consiguió el juego, Silent Hill: el mensaje corto, pero aún no podía dar el nombre correcto para la figura, aterrizando solo en “Cherry Blossom Monster” en lugar de Sakurahead, que había adivinado correctamente varias veces antes.

Blake Stimac/Cnet

Primero, permítanme decir que Géminis puede ser absolutamente increíble y ridículamente frustrante en la misma ronda de preguntas. Tenía aproximadamente 11 objetos que le estaba pidiendo a Gemini que se identificara, y a veces empeoraba cuanto más tiempo funcionara la sesión en vivo, por lo que tuve que limitar las sesiones a solo uno o dos objetos. Supongo que Gemini intentó usar información contextual de objetos previamente identificados para adivinar nuevos objetos que se ponen al frente, lo que tiene sentido, pero en última instancia, ni yo ni yo nos beneficié de esto.

A veces, Géminis estaba en punto, aterrizando fácilmente las respuestas correctas sin problemas ni confusión, pero esto tendía a suceder con objetos más recientes o populares. Por ejemplo, me sorprendió cuando inmediatamente supuso que uno de mis objetos de prueba no era solo de Destiny 2, sino que fue una edición limitada de un evento estacional del año pasado.

En otras ocasiones, Gemini estaría fuera de la marca, y necesitaría darle más pistas para entrar en el estadio de la respuesta correcta. Y a veces, parecía que Géminis estaba tomando contexto de mis sesiones en vivo anteriores para encontrar respuestas, identificando múltiples objetos como provenientes de Silent Hill cuando no lo estaban. Tengo un caso de exhibición dedicado a la serie de juegos, por lo que pude ver por qué querría sumergirse en ese territorio rápidamente.

Esta fue la más difícil de mis pruebas. Le pedí a Gemini que identifique no solo de qué juego todavía era esto (Silent Hill 2), sino qué cita icónica, dijo la persona en la parte superior de las escaleras. Géminis clavó el juego, los personajes y la mitad de la cita en la primera ronda; Se necesitaron dos conjeturas más para terminar la cita: “¿También lo ves? Para mí, siempre es así”.

Blake Stimac/Cnet

Géminis puede obtener un error completo a veces. En más de una ocasión, Gemini identificó erróneamente uno de los artículos como un personaje inventado de la colina silenciosa inédita: F Juego, claramente fusionando piezas de diferentes títulos en algo que nunca fue. El otro error consistente que experimenté fue cuando Gemini producía una respuesta incorrecta, y lo corrigía e insinuaría más cerca de la respuesta, o directamente darle la respuesta, solo para que repita la respuesta incorrecta como si fuera una nueva suposición. Cuando eso sucedía, cerraría la sesión y comenzaría una nueva, que no siempre fue útil.

Un truco que encontré fue que algunas conversaciones lo hicieron mejor que otras. Si me desplazé por mi lista de conversación de Géminis, aproveché un viejo chat que había obtenido un elemento específico correcto, y entonces Volvió a vivir de nuevo desde ese chat, podría identificar los elementos sin problemas. Si bien eso no es necesariamente sorprendente, fue interesante ver que algunas conversaciones funcionaron mejor que otras, incluso si usó el mismo idioma.

Google no respondió a mis solicitudes de más información sobre cómo funciona Gemini Live.

I buscado Géminis para responder con éxito mis preguntas a veces altamente específicas, así que proporcioné muchas pistas para llegar allí. Los empujones a menudo eran útiles, pero no siempre. A continuación hay una serie de objetos que intenté que Gemini identifique y proporcione información.

Para este, solo le pregunté a Gemini qué vio. “Ok, veo un gato blanco y negro que está disfrutando del sol en un piso de madera. Le pedí a Gemini que volviera a adivinar, y recibí respuestas de “Home es donde el horror es” honor “, pero finalmente aterrizó en la respuesta correcta (solo la palabra,” horror “).

Blake Stimac/Cnet

Gemini me dio cuatro personajes equivocados del juego correcto antes de identificar correctamente este icónico personaje infinito de Bioshock, Songbird.

Blake Stimac/Cnet

Géminis clavó esta figura espeluznante en la primera suposición. (Víctima gemela, Silent Hill 4: la habitación)

Blake Stimac/Cnet

Sin complicaciones: Géminis reconoció correctamente a Mira de Silent Hill 2, la real en control de la ciudad

Blake Stimac/Cnet

Este me impresionó. Si bien Géminis podía “ver” que este era un mapa silencioso de la colina, clavó el hecho de que se trataba de una impresión de carrera limitada que era parte de un ARG que tuvo lugar el año pasado.

Blake Stimac/Cnet

Gemini adoptó un enfoque muy diferente para identificar esta chaqueta de Silent Hill 2. Hizo 24 preguntas específicas basadas en la información que le di, con mi primera pista de que era de un videojuego. Sin embargo, para la 19ª pregunta, parecía que ya sabía exactamente de qué juego era por las preguntas específicas que me estaba haciendo.

Blake Stimac/Cnet

Este no tardó mucho, pero Gemini originalmente sugirió que este retrato podría ser del autor y poeta estadounidense John Ashbery. Una vez que moví la cámara más cerca de la imagen y dije que era de un programa de televisión, Gemini respondió correctamente: “Esa es la dama de troncos de Twin Peaks, sosteniendo su famoso tronco”.

Blake Stimac/Cnet

Esta fue fácil para Géminis. Inmediatamente reconoció esto como un mazo de tarot de edición limitada que tuvo que ser “ganada” jugando a través de un evento estacional específico en Destiny 2.

Blake Stimac/Cnet

Continue Reading

Trending