Noticias
La generación de imágenes de IA multimodal nativa de Google en Gemini 2.0 Flash impresiona con ediciones rápidas, transferencias de estilo
Published
1 mes agoon

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
El último modelo de IA de código abierto de Google, Gemma 3, no es la única gran noticia de la subsidiaria del alfabeto hoy.
No, de hecho, el centro de atención puede haber sido robado por Gemini 2.0 Flash de Google con la generación de imágenes nativas, un nuevo modelo experimental disponible para los usuarios de Google AI Studio y para los desarrolladores a través de la API Gemini de Google.
Marca la primera vez que una importante compañía de tecnología estadounidense ha enviado una generación de imágenes multimodales directamente dentro de un modelo a los consumidores. La mayoría de las otras herramientas de generación de imágenes de IA fueron modelos de difusión (imagen específicos de la imagen) conectados a modelos de lenguaje grande (LLM), lo que requiere un poco de interpretación entre dos modelos para derivar una imagen que el usuario solicitó en un mensaje de texto.
Por el contrario, Gemini 2.0 Flash puede generar imágenes de forma nativa dentro del mismo modelo en el que el texto de los tipos de usuario indica, lo que teóricamente permite una mayor precisión y más capacidades, y las primeras indicaciones son que esto es completamente cierto.
Gemini 2.0 Flash, presentado por primera vez en diciembre de 2024, pero sin la capacidad de generación de imágenes nativa activada para los usuarios, integra la entrada multimodal, el razonamiento y la comprensión del lenguaje natural para generar imágenes junto con el texto.
La versión experimental recientemente disponible, Gemini-2.0-Flash-Exp, permite a los desarrolladores crear ilustraciones, refinar imágenes a través de la conversación y generar imágenes detalladas basadas en el conocimiento mundial.
Cómo Gemini 2.0 Flash mejora las imágenes generadas por IA
En una publicación de blog que orienta el desarrollador publicada el día de hoy, Google destaca varias capacidades clave de Géminis 2.0 flash Generación de imágenes nativas:
• TEXTO E IMAGEN NORATRA: Los desarrolladores pueden usar Gemini 2.0 Flash para generar historias ilustradas mientras mantienen la consistencia en personajes y configuraciones. El modelo también responde a la retroalimentación, lo que permite a los usuarios ajustar la historia o cambiar el estilo de arte.
• Edición de imagen conversacional: La IA es compatible edición múltiplelo que significa que los usuarios pueden refinar iterativamente una imagen proporcionando instrucciones a través de indicaciones de lenguaje natural. Esta característica permite la colaboración en tiempo real y la exploración creativa.
• Generación de imágenes basada en el conocimiento mundial: A diferencia de muchos otros modelos de generación de imágenes, Gemini 2.0 Flash aprovecha las capacidades de razonamiento más amplias para producir imágenes más contextualmente relevantes. Por ejemplo, puede ilustrar recetas con imágenes detalladas que se alinean con los ingredientes del mundo real y los métodos de cocción.
• Representación de texto mejorado: Muchos modelos de imagen de IA luchan para generar con precisión el texto legible dentro de las imágenes, a menudo produciendo errores ortográficos o personajes distorsionados. Google informa que Gemini 2.0 flash supera a los competidores líderes En la representación de texto, haciéndolo particularmente útil para anuncios, publicaciones en redes sociales e invitaciones.
Los ejemplos iniciales muestran un potencial y promesa increíbles
Googlers y algunos usuarios de IA encierran a X para compartir ejemplos de las nuevas capacidades de generación de imágenes y edición que se ofrecen a través de Gemini 2.0 Flash Experimental, y sin duda fueron impresionantes.
El investigador de Google Deepmind, Robert Riachi, mostró cómo el modelo puede generar imágenes en un estilo de píxel y luego crear otras nuevas en el mismo estilo basado en las indicaciones de texto.

AI News Cuenta TestingCatalog News informó sobre el despliegue de las capacidades multimodales de Gemini 2.0 Flash Experimental, señalando que Google es el primer laboratorio importante en implementar esta función.

El usuario @angaisb_, también conocido como “Angel”, se mostró en un ejemplo convincente cómo una solicitud para “agregar llovizna de chocolate” modificó una imagen existente de cruasanes en segundos, revelando las capacidades de edición de imágenes rápidas y precisas de Gemini 2.0 Flash a través de simplemente chatear de un lado a otro con el modelo.

Teóricamente, los medios de comunicación de YouTuber señalaron que esta edición de imagen incremental sin regeneración total es algo que la industria de la IA ha anticipado durante mucho tiempo, lo que demuestra cómo era fácil pedirle a Gemini 2.0 Flash que editara una imagen para elevar el brazo de un personaje mientras preservaba todo el resto de la imagen.

El ex Googler convertido en AI YouTuber Bilawal Sidhu mostró cómo el modelo colorea las imágenes en blanco y negro, insinuando una potencial restauración histórica o aplicaciones de mejora creativa.

Estas reacciones tempranas sugieren que los desarrolladores y los entusiastas de la IA ven Gemini 2.0 Flash como una herramienta altamente flexible para el diseño iterativo, la narración creativa y la edición visual asistida por AI-AI.
El lanzamiento de Swift también contrasta con el GPT-4O de Opensei, que previseció las capacidades nativas de generación de imágenes en mayo de 2024, hace casi un año, pero aún no ha lanzado la función públicamente, le permite a Google aprovechar una oportunidad para liderar la implementación de IA multimodal.
Como el usuario @chatgpt21, también conocido como “Chris”, señaló en X, Operai tiene en este caso “Loss[t] El año + liderazgo ”que tenía en esta capacidad por razones desconocidas. El usuario invitó a cualquier persona de OpenAI para comentar por qué.

Mis propias pruebas revelaron algunas limitaciones con el tamaño de la relación de aspecto, parecía atascado en 1: 1 para mí, a pesar de pedirle al texto que lo modifique, pero pudo cambiar la dirección de los caracteres en una imagen en cuestión de segundos.

Si bien gran parte de la discusión inicial sobre la generación de imágenes nativas de Gemini 2.0 Flash se ha centrado en usuarios individuales y aplicaciones creativas, sus implicaciones para equipos empresariales, desarrolladores y arquitectos de software son significativas.
Diseño y marketing de IA a escala: Para los equipos de marketing y los creadores de contenido, Gemini 2.0 Flash podría servir como una alternativa rentable a los flujos de trabajo de diseño gráfico tradicionales, automatizando la creación de contenido de marca, anuncios y imágenes en las redes sociales. Dado que admite la representación de texto dentro de las imágenes, podría optimizar la creación de anuncios, el diseño del empaque y los gráficos promocionales, reduciendo la dependencia de la edición manual.
Herramientas de desarrollador mejoradas y flujos de trabajo de IA: para CTO, CIO e ingenieros de software, la generación de imágenes nativas podría simplificar la integración de IA en aplicaciones y servicios. Al combinar salidas de texto e imágenes en un solo modelo, Gemini 2.0 Flash permite a los desarrolladores construir:
- Asistentes de diseño con IA que generan maquetas UI/UX o activos de aplicaciones.
- Herramientas de documentación automatizadas que ilustran conceptos en tiempo real.
- Plataformas dinámicas de narración de historias impulsadas por IA para medios y educación.
Dado que el modelo también admite la edición de imágenes conversacionales, los equipos podrían desarrollar interfaces impulsadas por la IA donde los usuarios refinan los diseños a través del diálogo natural, bajando la barrera de entrada para usuarios no técnicos.
Nuevas posibilidades para el software de productividad impulsado por IA: Para equipos empresariales que construyen herramientas de productividad con IA, Gemini 2.0 Flash podría admitir aplicaciones como:
- Generación de presentación automatizada con diapositivas y imágenes creadas por AI.
- Anotación de documentos legales y comerciales con infografías generadas por IA.
- Visualización de comercio electrónico, generando dinámicamente maquetas de productos basados en descripciones.
Cómo implementar y experimentar con esta capacidad
Los desarrolladores pueden comenzar a probar las capacidades de generación de imágenes de Gemini 2.0 Flash utilizando la API de Gemini. Google proporciona una solicitud de API de muestra para demostrar cómo los desarrolladores pueden generar historias ilustradas con texto e imágenes en una sola respuesta:
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3D digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
Al simplificar la generación de imágenes con AI, Gemini 2.0 Flash ofrece a los desarrolladores nuevas formas de crear contenido ilustrado, diseñar aplicaciones asistidas por AI y experimentar con la narración visual.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.

You may like
Noticias
El futuro está aquí: probar el modo de cámara en vivo de Gemini
Published
1 hora agoon
26 abril, 2025
“Acabo de ver tus tijeras sobre la mesa, justo al lado del paquete verde de pistachos. ¿Las ves?”
La nueva y charlatis función de cámara de Gemini Live era correcta. Mis tijeras estaban exactamente donde decían que estaban, y todo lo que hice fue pasar mi cámara frente a ellas en algún momento durante una sesión en vivo de 15 minutos de mí dándole al chatbot Ai un recorrido por mi apartamento. Google ha estado implementando el nuevo modo de cámara a todos los teléfonos Android utilizando la aplicación Gemini de forma gratuita después de una exclusiva de dos semanas en Pixel 9 (incluidos los nuevos teléfonos inteligentes Pixel 9a) y Galaxy S5. Entonces, ¿qué es exactamente este modo de cámara y cómo funciona?
Cuando comienzas una sesión en vivo con Gemini, ahora tienes la opción de habilitar una vista de cámara en vivo, donde puedes hablar con el chatbot y preguntarle sobre cualquier cosa que ve la cámara. No solo puede identificar objetos, sino que también puede hacer preguntas sobre ellos, y funciona bastante bien en su mayor parte. Además, puede compartir su pantalla con Gemini para que pueda identificar cosas que sale a la superficie en la pantalla de su teléfono.
Cuando apareció la nueva función de cámara en mi teléfono, no dudé en probarla. En una de mis pruebas más largas, lo encendí y comencé a caminar por mi apartamento, preguntándole a Géminis qué vio. Identificó algunas frutas, chapstick y algunos otros artículos cotidianos sin ningún problema. Me sorprendió cuando encontró mis tijeras.
Eso es porque no había mencionado las tijeras en absoluto. Géminis los había identificado silenciosamente en algún lugar del camino y luego retiró la ubicación con precisión. Se sentía mucho como el futuro, tuve que hacer más pruebas.
Mi experimento con la función de cámara de Gemini Live fue seguir el liderazgo de la demostración que Google hizo el verano pasado cuando mostró por primera vez estas capacidades de IA de video en vivo. Géminis le recordó a la persona que dio la demostración donde había dejado sus gafas, y parecía demasiado bueno para ser verdad. Pero como descubrí, era muy cierto.
Gemini Live reconocerá mucho más que las probabilidades y fines del hogar. Google dice que te ayudará a navegar por una estación de tren abarrotada o descubrir el relleno de una masa. Puede brindarle información más profunda sobre obras de arte, como dónde se originó un objeto y si se trataba de una pieza de edición limitada.
Es más que una lente de Google mejorada. Hablas con eso y te habla. No necesitaba hablar con Gemini de ninguna manera en particular, era tan informal como cualquier conversación. Mucho mejor que hablar con el antiguo Asistente de Google que la compañía se está eliminando rápidamente.
Ampliar imagen
Aquí hay un vistazo a parte de mi conversación con Gemini Live sobre los objetos que estaba viendo en mi apartamento.
Blake Stimac/Cnet
Google también lanzó un nuevo video de YouTube para la caída de píxeles de abril de 2025 que muestra la función, y ahora hay una página dedicada en Google Store para ello.
Para comenzar, puede ir a vivir con Gemini, habilitar la cámara y comenzar a hablar. Eso es todo.
Gemini Live sigue desde el proyecto Astra de Google, revelado por primera vez el año pasado como posiblemente la característica más grande de la compañía “estamos en el futuro”, un siguiente paso experimental para las capacidades generativas de IA, más allá de su simplemente escribir o incluso hablar en un chatbot como chatgpt, Claude o gemini. Se produce a medida que las empresas de IA continúan aumentando drásticamente las habilidades de las herramientas de IA, desde la generación de videos hasta la potencia de procesamiento en bruto. Similar a Gemini Live, está la inteligencia visual de Apple, que el fabricante de iPhone lanzó en forma beta a fines del año pasado.
Mi gran conclusión es que una característica como Gemini Live tiene el potencial de cambiar la forma en que interactuamos con el mundo que nos rodea, fusionando nuestros mundos digitales y físicos simplemente sosteniendo su cámara frente a casi cualquier cosa.
Puse a Géminis en vivo en una prueba real
La primera vez que lo probé, Gemini fue sorprendentemente preciso cuando coloqué un juego muy específico coleccionable de un conejo relleno en la vista de mi cámara. La segunda vez, se lo mostré a un amigo en una galería de arte. Identificó la tortuga en una cruz (no me preguntes) e inmediatamente identificó y tradujo el Kanji justo al lado de la tortuga, dándonos a los dos escalofríos y dejándonos más que un poco asustados. En el buen sentido, creo.
Este fue el primer objeto que probé con la nueva función de Gemini Live, y reconoció impresionantemente qué era y de qué juego era (Alice de American McGee). Cada vez que le pedía a Géminis que identifique el juego del que era el lujoso, fallaba.
Blake Stimac/Cnet
Pensé en cómo podría probar la función. Traté de grabarlo en la pantalla en acción, pero constantemente se desmoronó en esa tarea. ¿Y qué pasaría si saliera del camino golpeado con él? Soy un gran admirador del género de terror (películas, programas de televisión, videojuegos) y tengo innumerables coleccionables, baratijas y lo que tienes. ¿Qué tan bien le haría con cosas más oscuras, como mis coleccionables con temática de terror?

Las pruebas iniciales demostraron ser significativamente más exitosas que la anterior, a pesar de darle varias pistas. Gemini finalmente consiguió el juego, Silent Hill: el mensaje corto, pero aún no podía dar el nombre correcto para la figura, aterrizando solo en “Cherry Blossom Monster” en lugar de Sakurahead, que había adivinado correctamente varias veces antes.
Blake Stimac/Cnet
Primero, permítanme decir que Géminis puede ser absolutamente increíble y ridículamente frustrante en la misma ronda de preguntas. Tenía aproximadamente 11 objetos que le estaba pidiendo a Gemini que se identificara, y a veces empeoraba cuanto más tiempo funcionara la sesión en vivo, por lo que tuve que limitar las sesiones a solo uno o dos objetos. Supongo que Gemini intentó usar información contextual de objetos previamente identificados para adivinar nuevos objetos que se ponen al frente, lo que tiene sentido, pero en última instancia, ni yo ni yo nos beneficié de esto.
A veces, Géminis estaba en punto, aterrizando fácilmente las respuestas correctas sin problemas ni confusión, pero esto tendía a suceder con objetos más recientes o populares. Por ejemplo, me sorprendió cuando inmediatamente supuso que uno de mis objetos de prueba no era solo de Destiny 2, sino que fue una edición limitada de un evento estacional del año pasado.
En otras ocasiones, Gemini estaría fuera de la marca, y necesitaría darle más pistas para entrar en el estadio de la respuesta correcta. Y a veces, parecía que Géminis estaba tomando contexto de mis sesiones en vivo anteriores para encontrar respuestas, identificando múltiples objetos como provenientes de Silent Hill cuando no lo estaban. Tengo un caso de exhibición dedicado a la serie de juegos, por lo que pude ver por qué querría sumergirse en ese territorio rápidamente.

Esta fue la más difícil de mis pruebas. Le pedí a Gemini que identifique no solo de qué juego todavía era esto (Silent Hill 2), sino qué cita icónica, dijo la persona en la parte superior de las escaleras. Géminis clavó el juego, los personajes y la mitad de la cita en la primera ronda; Se necesitaron dos conjeturas más para terminar la cita: “¿También lo ves? Para mí, siempre es así”.
Blake Stimac/Cnet
Géminis puede obtener un error completo a veces. En más de una ocasión, Gemini identificó erróneamente uno de los artículos como un personaje inventado de la colina silenciosa inédita: F Juego, claramente fusionando piezas de diferentes títulos en algo que nunca fue. El otro error consistente que experimenté fue cuando Gemini producía una respuesta incorrecta, y lo corrigía e insinuaría más cerca de la respuesta, o directamente darle la respuesta, solo para que repita la respuesta incorrecta como si fuera una nueva suposición. Cuando eso sucedía, cerraría la sesión y comenzaría una nueva, que no siempre fue útil.
Un truco que encontré fue que algunas conversaciones lo hicieron mejor que otras. Si me desplazé por mi lista de conversación de Géminis, aproveché un viejo chat que había obtenido un elemento específico correcto, y entonces Volvió a vivir de nuevo desde ese chat, podría identificar los elementos sin problemas. Si bien eso no es necesariamente sorprendente, fue interesante ver que algunas conversaciones funcionaron mejor que otras, incluso si usó el mismo idioma.
Google no respondió a mis solicitudes de más información sobre cómo funciona Gemini Live.
I buscado Géminis para responder con éxito mis preguntas a veces altamente específicas, así que proporcioné muchas pistas para llegar allí. Los empujones a menudo eran útiles, pero no siempre. A continuación hay una serie de objetos que intenté que Gemini identifique y proporcione información.

Para este, solo le pregunté a Gemini qué vio. “Ok, veo un gato blanco y negro que está disfrutando del sol en un piso de madera. Le pedí a Gemini que volviera a adivinar, y recibí respuestas de “Home es donde el horror es” honor “, pero finalmente aterrizó en la respuesta correcta (solo la palabra,” horror “).
Blake Stimac/Cnet

Gemini me dio cuatro personajes equivocados del juego correcto antes de identificar correctamente este icónico personaje infinito de Bioshock, Songbird.
Blake Stimac/Cnet

Géminis clavó esta figura espeluznante en la primera suposición. (Víctima gemela, Silent Hill 4: la habitación)
Blake Stimac/Cnet

Sin complicaciones: Géminis reconoció correctamente a Mira de Silent Hill 2, la real en control de la ciudad
Blake Stimac/Cnet

Este me impresionó. Si bien Géminis podía “ver” que este era un mapa silencioso de la colina, clavó el hecho de que se trataba de una impresión de carrera limitada que era parte de un ARG que tuvo lugar el año pasado.
Blake Stimac/Cnet

Gemini adoptó un enfoque muy diferente para identificar esta chaqueta de Silent Hill 2. Hizo 24 preguntas específicas basadas en la información que le di, con mi primera pista de que era de un videojuego. Sin embargo, para la 19ª pregunta, parecía que ya sabía exactamente de qué juego era por las preguntas específicas que me estaba haciendo.
Blake Stimac/Cnet

Este no tardó mucho, pero Gemini originalmente sugirió que este retrato podría ser del autor y poeta estadounidense John Ashbery. Una vez que moví la cámara más cerca de la imagen y dije que era de un programa de televisión, Gemini respondió correctamente: “Esa es la dama de troncos de Twin Peaks, sosteniendo su famoso tronco”.
Blake Stimac/Cnet

Esta fue fácil para Géminis. Inmediatamente reconoció esto como un mazo de tarot de edición limitada que tuvo que ser “ganada” jugando a través de un evento estacional específico en Destiny 2.
Blake Stimac/Cnet
Noticias
RENDIMIENTO DE CHATGPT y Microsoft Copilot en Bing al responder preguntas de ultrasonido obstétrico y analizar informes de ultrasonido obstétrico
Published
2 horas agoon
26 abril, 2025
Este estudio evaluó la precisión y consistencia de los modelos AI (CHATGPT-3.5, CHATGPT-4.0 y Copilot) para responder preguntas de ultrasonido obstétrico y analizar informes de ultrasonido obstétrico. CHATGPT-3.5 y CHATGPT-4.0 demostraron una precisión y consistencia superiores al responder 20 preguntas relacionadas con el ultrasonido en comparación con el copiloto. Sin embargo, no hubo diferencia estadística entre los modelos (PAG> 0.05 para todos), lo que puede deberse al pequeño tamaño de la muestra. En el análisis e interpretación de los informes de ultrasonido obstétrico, tanto ChatGPT-3.5 como ChatGPT-4.0 exhibieron una precisión significativamente mayor que el copiloto (PAG<0.05), con todos los modelos que muestran alta consistencia.
Estos modelos de lenguaje avanzado han demostrado potencial como ayudas clínicas, ofreciendo respuestas claras y típicamente precisas a cuestiones médicas que son comprensibles por los proveedores de atención médica y los pacientes. Mientras observa su capacidad, es importante caracterizar sus limitaciones16. En este estudio, CHATGPT-3.5, CHATGPT-4.0 y Copilot pueden proporcionar respuestas inconsistentes o no completamente correctas. Por ejemplo, las respuestas de Copilot a la madurez placentaria y la frecuencia del examen de ultrasonido durante el embarazo, la respuesta de ChatGPT-3.5 al índice de líquidos amnióticos y la respuesta de ChatGPT-4.0 al nivel II de madurez placentaria, que se ha informado tres veces pero utilizando diferentes descripciones y resultó en algunas respuestas correctas y incorrectas. La sugerencia final para muchas respuestas generadas por estos modelos fue consultar con la atención médica. Se puede encontrar que los modelos similares a CHATGPT-3.5, CHATGPT-4.0 y Copilot pueden generar texto coherente y gramaticalmente correcto, pero pueden no tener la capacidad de distinguir entre cada paciente, combinar el historial médico del paciente y combinar con los últimos avances en esta tecnología, como lo hacen los expertos humanos en campos específicos.
Para el análisis de los informes de ultrasonido obstétrico, tres LLM pudieron identificar la mayoría de los indicadores anormales y demostrar una alta repetibilidad. La precisión de ChATGPT-3.5, CHATGPT-4.0 y Copilot fue del 83.86%, 84.13%y 77.51%, respectivamente, mientras que su consistencia fue del 87.30%, 93.65%y 90.48%, respectivamente. Sin embargo, al identificar las anormalidades en las mediciones de crecimiento fetal, tres LLM mostraron una precisión más baja, con ChatGPT-3.5 al 59.38%, CHATGPT-4.0 a 60.42%y copiloto al 50.00%. El estudio de Rahsepar AA et al.13demostró que los errores proporcionados por LLM podrían deberse a su capacitación en diversos contenido de Internet, como artículos, libros, Wikipedia, noticias y sitios web, en lugar de literatura e información científica. Otra razón podría ser que los estándares para las mediciones de crecimiento fetal varían en diferentes etnias17lo que hace que los LLM se referen a los estándares que pueden no alinearse con la población incluida en este estudio. En el estudio de Shen Y et al., Se señaló que estos LLM no participan en interacciones para aclarar las preguntas que se les pide que proporcionen respuestas precisas. En cambio, tienden a asumir lo que el usuario quiere escuchar, lo que puede resultar en información inexacta o incompleta16. Además, vale la pena señalar la seguridad de los modelos de IA utilizados en el campo de la medicina. Si el modelo se ve afectado por ataques adversos o insumos erróneos, puede conducir a una interpretación incorrecta de los informes, lo que puede tener graves consecuencias en la toma de decisiones médicas18,19,20.
En dos casos de análisis de informes de ultrasonido obstétrico, Copilot identificó incorrectamente una distancia mayor de 2 cm entre la placenta y el sistema operativo cervical como anormal, etiquetando la condición como “placenta previa” y sugiriendo que podría provocar sangrado durante el parto. La difusión de tal información incorrecta puede causar angustia emocional para la mujer embarazada y toda su familia. Un estudio sugirió que debemos ser cautelosos sobre las aplicaciones potenciales de las aplicaciones complejas de procesamiento del lenguaje natural en la atención médica21. Los resultados de la investigación de Ayers JW et al. demostró que ChatGPT puede proporcionar respuestas empáticas y de alta calidad a las preguntas del paciente planteadas en los foros en línea, con el 78.6% de los evaluadores que prefieren las respuestas de chatbot22. Sin embargo, los estudios han destacado que es crucial reconocer que las respuestas de chatbot pueden no ser siempre precisas, ya que sus conjuntos de datos de entrenamiento pueden contener información sesgada, lo que puede conducir a respuestas alucinadas13. Estos son similares a nuestros resultados de investigación, donde los LLM pudieron analizar cada informe de ultrasonido y proporcionar recomendaciones y opiniones detalladas, aunque los resultados de sus análisis no fueron del todo precisos.
Al comparar los resultados de análisis de los informes de ultrasonido entre ChatGPT-3.5, ChatGPT-4.0 y Copilot, se descubrió que, aunque ChATGPT demostró una precisión general más alta que el copiloto, cada software tiene sus propias fortalezas y debilidades. Las respuestas generadas por ChatGPT-3.5 fueron más concisas y claras, y también proporcionaron recomendaciones para cada informe. Las respuestas generadas por ChatGPT-4.0 fueron muy detalladas e integrales, y se proporcionó un resumen al final de cada respuesta. Las respuestas de Copilot analizaron cada elemento de acuerdo con la estructura de los informes de ultrasonido, lo que resulta en recomendaciones finales más detalladas e integrales.
Hay varias limitaciones para este estudio. Primero, solo se diseñaron veinte preguntas relacionadas con la ecografía obstétrica y se analizaron 110 informes de ultrasonido obstétrico. Expandir el tamaño de la muestra, especialmente con muestras de diferentes modalidades, validaría mejor la estabilidad y la precisión de la aplicación de LLM en el campo de la medicina. En segundo lugar, los avances recientes en las redes de fusión de decisiones han mostrado un éxito significativo en la clasificación de imágenes, especialmente en la fusión multimodal y la toma de decisiones de tareas múltiples23,24. En este estudio, solo se analizaron datos textuales relacionados con la ultrasonido obstétrico. Los datos multimodales se explorarían en futuras investigaciones, lo que puede producir resultados diferentes. Tercero, la evaluación de las respuestas generadas por los LLMS fue realizada por médicos de ultrasonido con diferentes antigüedad. Los estudios futuros podrían incluir obstetras o expertos en medicina materna fetal, que son altamente calificadas y competentes en la interpretación de ultrasonidos obstétricos y pueden proporcionar orientación clínica experta.
En resumen, estos modelos de inteligencia artificial (CHATGPT-3.5, CHATGPT-4.0 y Copilot de Microsoft en Bing) tienen el potencial de ayudar a los flujos de trabajo clínicos al mejorar la educación del paciente y la comunicación clínica del paciente en torno a problemas comunes de ultrasonido obstétrico. Sin embargo, dadas las respuestas inconsistentes y a veces inexactas, así como las preocupaciones de ciberseguridad, la supervisión del médico es crucial en el uso de estos modelos.
Noticias
La nueva fuga de Google revela cambios de suscripción para Gemini AI
Published
2 horas agoon
26 abril, 2025
Google presenta nuevas opciones de precios basadas en IA para su suscripción de almacenamiento en la nube de Google One … Más servicio.
SOPA Images/LighTrocket a través de Getty Images
De un vistazo
- Google está preparando nuevas formas de pagar por sus servicios de IA avanzados de Gemini
- Los nuevos planes no se han anunciado oficialmente, pero se mencionan en el último código para la aplicación Google Photos.
- Los planes propuestos se llaman actualmente “Ai Premium Plus” y “Ai Premium Pro”.
Google está trabajando en nuevos planes de suscripción de IA que podrían ofrecer formas alternativas de comprar acceso a la opción Gemini Advanced de la compañía, que permite los modelos de IA y las características premium más capaces de Google.
Actualización del 25 de abril a continuación: este artículo se publicó originalmente el 23 de abril.
Actualmente solo hay una forma de comprar Gemini Advanced, y es para comprar un Plan premium de Google One AI por $ 19.99 por mes. Sin embargo, es probable que esto cambie de acuerdo con un reciente Autoridad de Android Informe que revela dos nuevos planes de suscripción secretos ocultos dentro del código de la última aplicación de Google Photos.
Niveles de suscripción de IA avanzados de Gemini: ¿cómo están cambiando?
Las posibles suscripciones, actualmente llamadas “Premium Plus AI” y “Premium AI Pro”, se encuentran junto con la opción “Premium AI” existente y los otros niveles de suscripción que no son de Google, incluido el reciente nivel “Lite” que era revelado por el mismo método el año pasado.
El informe no encuentra más información sobre el precio o las capacidades de estos dos planes nuevos. De hecho, incluso los nombres pueden cambiar antes del lanzamiento. Sin embargo, podemos especular que tanto “Premium Plus AI” como “Premium AI Pro” ofrecerán más que el plan actual “Premium” y, por lo tanto, probablemente cuestan más. Aquellos que esperen una forma significativamente más barata de comprar Géminis avanzado probablemente no estarán sin suerte.
Google ya ha revelado, a través de incógnitaplanea ofrecer una versión anual con descuento de la suscripción actual de Google One AI AI Premium. Sin embargo, es poco probable que esto se alinee con cualquiera de los nuevos niveles, ya que la compañía generalmente mantiene el mismo nombre para las versiones mensuales y anuales de cada suscripción. Esta suscripción anual prometida probablemente seguirá siendo la única forma de pagar menos por Gemini Advanced que usted en este momento.
Los nuevos niveles de suscripción de IA avanzados de Gemini de Google: ¿por qué importan?
Agregar nuevos planes de suscripción le daría a Google una mayor flexibilidad en la forma en que cobra la alimentación y las características de la computación.
Además del acceso a Gemini Advanced, el paquete actual de Google One Ai Premium incluye 2 TB de almacenamiento en la nube, así como Géminis en Gmail y Docs, Cuaderno de cuaderno másy características mejoradas con AI en Google Photos. Los nuevos niveles podrían agregar características adicionales a esta lista o incluso eliminar algunas de ellas.
¿Qué características adicionales podrían incluir Google en sus nuevos niveles Gemini Advanced Premium y Pro?
Google recientemente Soporte agregado Para su herramienta de generación de videos VEO 2 AI para la aplicación Gemini para usuarios avanzados de Gemini. Sin embargo, los usuarios están limitados en términos del número de videoclips de ocho segundos que pueden crear por mes. Los nuevos niveles de suscripción de Google podrían proporcionar límites más altos, videos más largos o una mayor resolución, por ejemplo.
Los nuevos niveles también crearían una oportunidad de ventas significativa para Google: los teléfonos inteligentes premium, como la serie Pixel 9 Pro o Samsung Galaxy S25, vienen con suscripciones gratuitas de Google One Ai Premium de hasta 12 meses. Los nuevos niveles de nivel superior de Google permitirían a la compañía mejorar los planes de IA para aquellos usuarios que de otro modo no gastarían en Google AI por hasta un año, o incluso más si la compañía continúa ofreciendo suscripciones gratuitas con futuros teléfonos inteligentes insignia.
Puede esperar obtener más información sobre Géminis avanzado en Google E/S mes próximo.
Actualización del 23 de abril: Se agregaron posibles escenarios de actualización y asesoramiento de suscripción
Los nuevos planes de suscripción de IA de Google: ¿qué podrían ofrecer?
Por ahora, solo podemos especular sobre lo que podrían ofrecer los nuevos niveles de suscripción Gemini Ai Premium Plus y AI Premium Pro de Google sobre la oferta avanzada actual de Gemini.
Las actualizaciones probables incluyen:
- Calidad mejorada para imágenes y videos generados por IA: resoluciones más altas y duraciones más largas para las creaciones VEO 2.
- Menos límites: límites de uso diarios o mensuales reducidos en planes más caros.
- Contexto más grande Windows: envíe archivos más grandes y videos más largos a Gemini para su análisis y procesamiento.
- Nuevas características: Google podría agregar características completamente nuevas y modelos más potentes a suscripciones más caras antes.
El plan de 5tb de Google One Google One Premium es la única forma de comprar Gemini avanzado en un plan anual.
Los nuevos planes de suscripción de IA de Google: ¿un cambio de nombre simple?
Una posibilidad, aunque creo que es poco probable, es que los niveles AI Premium Plus y AI Premium Pro de Google no ofrecerán nada nuevo en absoluto.
Cuando Google hizo que Gemini avanzó por primera vez a través de su plan premium de AI de Google One 2TB, los clientes que ya se habían suscrito a los niveles de suscripción “Premium 5 5” más caros de la compañía, “Premium 10TB” y “Premium 20TB” se quedaron fuera. Ninguna de estas opciones costosas incluía a Gemini Advanced, y la única forma de obtenerlo era degradar al plan premium de AI 2TB.
Google ahora ha agregado a Gemini avanzado a estos planes de mayor capacidad, pero sus nombres ahora son algo anómalos, ya que ninguno de ellos hace referencia a IA en el título.
Entonces, para Google, tendría sentido agregar algo de marca Gemini AI a estos planes. Los nombres ‘AI Premium Plus “y” Ai Premium Pro “ciertamente encajarían. Sin embargo, espero que veamos características adicionales de IA incluidas en los nuevos planes de suscripción, en lugar de solo una mayor capacidad de almacenamiento.
Google One AI Premium: no compre una suscripción anual
Curiosamente, Google One Premium 5 TB es actualmente la única opción que permite a los clientes comprar una suscripción anual con descuento a Gemini Advanced. Sin embargo, recomiendo que no compre cualquier suscripción anual de IA por ahora, a menos que pueda obtenerla con un descuento considerable.
Simplemente hay demasiada competencia en el espacio de IA en este momento, con ofertas convincentes disponibles de otros servicios, como ChatGPT, Perplexity y Claude, por nombrar solo algunos, todos compitiendo por sus tarifas de suscripción. Se agregan nuevas características todo el tiempo, con servicios competitivos a menudo se saltan entre sí en términos de capacidad.
También vale la pena señalar que Google tiene la costumbre de hacer que las funciones de IA premium estén disponibles para usuarios gratuitos, lo que potencialmente devalúa suscripciones pagas. Las características premium notables que ahora están disponibles gratis incluyen Gemini Live Cámaras y compartir la pantalla, Investigación profunday Géminis 2.5 Pro (Experimental), aunque pueden aplicarse límites de uso más bajos.
Con esto en mente, es sensato cumplir con una suscripción mensual para evitar encerrarse en un servicio que ya no se sienta como la mejor opción mucho antes de que termine su suscripción.
Seguir @Paul_Monckton en Instagram.
ForbesLa actualización de Google Photos desbloquea impresionante Ultra HDR para todas sus imágenesPor Paul MoncktonForbesAndroid recibe una actualización de IA de próxima generación mientras iPhone se pierdePor Paul Monckton
Related posts



























































































































































































































































































Trending
-
Startups11 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Tutoriales12 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Recursos12 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Startups10 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Startups12 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos11 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Recursos12 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Noticias9 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo