Connect with us

Noticias

Géminis 2.0: Su guía para las ofertas de múltiples modelos de Google

Published

on

Después de probar los diversos modelos en la nueva familia Gemini 2.0 de Google, algo interesante queda claro: Google está explorando el potencial de los sistemas de IA especializados que trabajan en concierto similar a OpenAI.

Google ha estructurado sus ofertas de IA en torno a casos de uso prácticos, desde sistemas de respuesta rápida hasta motores de razonamiento profundo. Cada modelo tiene un propósito específico, y juntos forman un conjunto de herramientas integral para diferentes tareas de IA.

Lo que destaca es el diseño detrás de las capacidades de cada modelo. Destello procesa contextos masivos, Pro maneja tareas de codificación compleja y Pensamiento flash trae un enfoque estructurado para la resolución de problemas.

El desarrollo de Google de Gemini 2.0 refleja una cuidadosa consideración de cómo los sistemas AI realmente se usan en la práctica. Si bien sus enfoques anteriores se centraron en los modelos de propósito general, este lanzamiento muestra un cambio hacia la especialización.

Esta estrategia multimodelo tiene sentido cuando se observa cómo se está implementando AI en diferentes escenarios:

  • Algunas tareas necesitan respuestas rápidas y eficientes
  • Otros requieren un análisis profundo y un razonamiento complejo
  • Muchas aplicaciones son sensibles a los costos y necesitan un procesamiento eficiente
  • Los desarrolladores a menudo necesitan capacidades especializadas para casos de uso específicos

Cada modelo tiene fortalezas claras y casos de uso, lo que facilita elegir la herramienta adecuada para tareas específicas. No es revolucionario, pero es práctico y bien pensado.

Desglosando los modelos Géminis 2.0

Cuando mira por primera vez la línea Gemini 2.0 de Google, puede parecer solo otro conjunto de modelos de IA. Pero pasar tiempo entendiendo cada uno revela algo más interesante: un ecosistema cuidadosamente planificado donde cada modelo cumple un papel específico.

1. Géminis 2.0 flash

Flash es la respuesta de Google a un desafío de IA fundamental: ¿cómo equilibra la velocidad con la capacidad? Mientras que la mayoría de las compañías de IA presionan para modelos más grandes, Google tomó una ruta diferente con Flash.

Flash trae tres innovaciones clave:

  1. Una ventana de contexto de token de 1 m que puede manejar documentos completos
  2. Latencia de respuesta optimizada para aplicaciones en tiempo real
  3. Integración profunda con el ecosistema más amplio de Google

Pero lo que realmente importa es cómo esto se traduce en uso práctico.

Flash sobresale en:

Procesamiento de documentos

  • Maneja documentos de varias páginas sin romper el contexto
  • Mantiene una comprensión coherente en largas conversaciones
  • Procesos de datos estructurados y no estructurados de manera eficiente

Integración de API

  • Los tiempos de respuesta consistentes lo hacen confiable para los sistemas de producción
  • Escala bien para aplicaciones de alto volumen
  • Admite consultas simples y tareas de procesamiento complejas

Limitaciones a considerar

  • No optimizado para tareas especializadas como codificación avanzada
  • Intercambia cierta precisión por velocidad en tareas de razonamiento complejas
  • Ventana de contexto, aunque grande, todavía tiene límites prácticos

La integración con el ecosistema de Google merece una atención especial. Flash está diseñado para funcionar a la perfección con Google Cloud Services, lo que lo hace particularmente valioso para las empresas que ya están en el ecosistema de Google.

2. Géminis 2.0 Flash-Lite

Flash-Lite podría ser el modelo más pragmático de la familia Géminis 2.0. En lugar de perseguir el máximo rendimiento, Google se centró en algo más práctico: hacer que la IA sea accesible y asequible a escala.

Desglosemos la economía:

  • Tokens de entrada: $ 0.075 por millón
  • Tokens de salida: $ 0.30 por millón

Esta es una gran reducción en la barrera de costos para la implementación de AI. Pero la verdadera historia es lo que mantiene Flash-Lite a pesar de su enfoque de eficiencia:

Capacidades centrales

  • Rendimiento de nivel cercano a la flash en la mayoría de las tareas generales
  • Ventana de contexto de token de 1 m completo
  • Soporte de entrada multimodal

Flash-Lite no es solo más barato: está optimizado para casos de uso específicos donde el costo por operación es más importante que el rendimiento en bruto:

  • Procesamiento de texto de alto volumen
  • Aplicaciones de servicio al cliente
  • Sistemas de moderación de contenido
  • Herramientas educativas

3. Géminis 2.0 Pro (experimental)

Aquí es donde las cosas se interesan en la familia Géminis 2.0. Gemini 2.0 Pro es la visión de Google de lo que AI puede hacer cuando elimina las restricciones típicas. Sin embargo, la etiqueta experimental es importante: señala que Google todavía está encontrando el punto óptimo entre la capacidad y la confiabilidad.

La ventana de contexto duplicada es más importante de lo que piensas. A 2M Tokens, Pro puede procesar:

  • Múltiples documentos técnicos de larga duración simultáneamente
  • Basas de código enteras con su documentación
  • Conversaciones de larga duración con contexto completo

Pero la capacidad cruda no es la historia completa. La arquitectura de Pro está construida para un pensamiento y comprensión de IA más profundo.

Pro muestra una fuerza particular en áreas que requieren análisis profundo:

  • Descomposición de problemas complejos
  • Razonamiento lógico de varios pasos
  • Reconocimiento de patrones matizado

Google PRO específicamente optimizado para el desarrollo de software:

  • Comprende las arquitecturas complejas del sistema
  • Maneja proyectos de múltiples archivos coherentemente
  • Mantiene patrones de codificación consistentes en grandes proyectos

El modelo es particularmente adecuado para tareas de negocios críticos:

  • Análisis de datos a gran escala
  • Procesamiento de documentos complejos
  • Flujos de trabajo de automatización avanzados

4. Géminis 2.0 pensamiento flash

El pensamiento flash Gemini 2.0 podría ser la adición más intrigante a la familia Géminis. Mientras que otros modelos se centran en respuestas rápidas, Flash Thinking hace algo diferente: muestra su trabajo. Esta transparencia ayuda a habilitar una mejor colaboración Human-AI.

El modelo descompone problemas complejos en piezas digeribles:

  • Claramente establece suposiciones
  • Muestra la progresión lógica
  • Identifica posibles enfoques alternativos

Lo que diferencia a Flash Pensar aparte es su capacidad para aprovechar el ecosistema de Google:

  • Datos en tiempo real de la búsqueda de Google
  • Conciencia de ubicación a través de mapas
  • Contexto multimedia de YouTube
  • Integración de herramientas para procesamiento de datos en vivo

Flash Thinking encuentra su nicho en escenarios en los que es importante comprender el proceso:

  • Contextos educativos
  • Toma de decisiones complejas
  • Solución de problemas técnicos
  • Investigación y análisis

La naturaleza experimental del pensamiento flash sugiere la visión más amplia de Google de capacidades de razonamiento más sofisticadas y una integración más profunda con herramientas externas.

Infraestructura e integración técnica

Obtener Gemini 2.0 en producción requiere una comprensión de cómo estas piezas encajan en el ecosistema más amplio de Google. El éxito con la integración a menudo depende de qué tan bien asigne sus necesidades a la infraestructura de Google.

La capa API sirve como su punto de entrada, ofreciendo interfaces REST y GRPC. Lo interesante es cómo Google ha estructurado estas API para mantener la consistencia entre los modelos al tiempo que permite el acceso a las características específicas del modelo. No solo está llamando a diferentes puntos finales: está aprovechando un sistema unificado donde los modelos pueden trabajar juntos.

La integración de Google Cloud es más profunda de lo que la mayoría se da cuenta. Más allá del acceso básico a la API, obtiene herramientas para monitorear, escalar y administrar sus cargas de trabajo de IA. El poder real proviene de cómo los modelos Gemini se integran con otros servicios de Google Cloud, desde BigQuery para el análisis de datos hasta el almacenamiento en la nube para manejar grandes contextos.

La implementación del espacio de trabajo muestra una promesa particular para los usuarios empresariales. Google tiene capacidades de Géminis tejidas en herramientas familiares como documentos y hojas, pero con un giro, puede elegir qué modelo impulsa diferentes características. ¿Necesita sugerencias de formato rápido? Flash maneja eso. Análisis de datos complejos? Pro interviene.

La experiencia móvil merece una atención especial. La aplicación de Google es una bolsa de prueba de cómo estos modelos pueden trabajar juntos en tiempo real. Puede cambiar entre modelos a mitad de conversación, cada uno optimizado para diferentes aspectos de su tarea.

Para los desarrolladores, el ecosistema de herramientas continúa expandiéndose. Los SDK están disponibles para idiomas principales, y Google ha creado herramientas especializadas para patrones de integración comunes. Lo que es particularmente útil es cómo se adapta la documentación en función de su caso de uso, ya sea que esté creando una interfaz de chat, una herramienta de análisis de datos o asistente de código.

El resultado final

Mirando hacia el futuro, espere ver que este ecosistema continúe evolucionando. La inversión de Google en modelos especializados refuerza un futuro en el que la IA se vuelve más específica de la tarea en lugar de uso general. Esté atento a la mayor integración entre los modelos y las capacidades de expansión en cada área especializada.

La conclusión estratégica no se trata de elegir ganadores, se trata de construir sistemas que pueden adaptarse a medida que evolucionan estas herramientas. El éxito con Gemini 2.0 proviene de comprender no solo lo que estos modelos pueden hacer hoy, sino cómo encajan en su estrategia de IA a largo plazo.

Para los desarrolladores y organizaciones que se sumergen en este ecosistema, la clave es comenzar una pequeña pero pensando en grande. Comience con implementaciones enfocadas que resuelvan problemas específicos. Aprenda de patrones de uso real. Cree flexibilidad en sus sistemas. Y lo más importante, manténgase curioso: todavía estamos en los primeros capítulos de lo que estos modelos pueden hacer.

Preguntas frecuentes

1. ¿Está disponible Gemini 2.0?

Sí, Gemini 2.0 está disponible. La suite de modelo Gemini 2.0 es ampliamente accesible a través de la aplicación de chat de Gemini y la plataforma Vertex AI de Google Cloud. Gemini 2.0 Flash está generalmente disponible, Flash-Lite está en una vista previa pública y Gemini 2.0 Pro está en una vista previa experimental.

2. ¿Cuáles son las principales características de Gemini 2.0?

Las características clave de Gemini 2.0 incluyen habilidades multimodales (entrada de texto e imagen), una gran ventana de contexto (tokens de 1 m-2 m), razonamiento avanzado (especialmente con pensamiento flash), integración con los servicios de Google (búsqueda, mapas, youtube), fuerte natural Capacidades de procesamiento del lenguaje y escalabilidad a través de modelos como Flash y Flash-Lite.

3. ¿Géminis es tan bueno como GPT-4?

Géminis 2.0 se considera a la par con GPT-4, lo que lo supere en algunas áreas. Google informa que su modelo Gemini más grande supera a GPT-4 en 30 de 32 puntos de referencia académicos. Las evaluaciones de la comunidad también clasifican altamente modelos Géminis. Para las tareas cotidianas, Gemini 2.0 Flash y GPT-4 funcionan de manera similar, con la opción dependiendo de necesidades específicas o preferencia del ecosistema.

4. ¿Es seguro usar Gemini 2.0?

Sí, Google ha implementado medidas de seguridad en Gemini 2.0, incluido el aprendizaje de refuerzo y el ajuste fino para reducir los resultados dañinos. Los principios de IA de Google guían su capacitación, evitando respuestas sesgadas y contenido no permitido. Probas de prueba de seguridad automatizadas para vulnerabilidades. Las aplicaciones orientadas al usuario tienen barandas para filtrar solicitudes inapropiadas, asegurando un uso general seguro.

5. ¿Qué hace Gemini 2.0 Flash?

Gemini 2.0 Flash es el modelo central diseñado para un manejo de tareas rápido y eficiente. Procesa indicaciones, genera respuestas, razones, proporciona información y crea texto rápidamente. Optimizado para baja latencia y alto rendimiento, es ideal para uso interactivo, como chatbots.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Gemini 2.5 Pro está aquí, y cambia el juego AI (nuevamente)

Published

on

Google ha presentado Gemini 2.5 Pro, llamándolo “Modelo de IA más inteligente” hasta la fecha. Este último modelo de lenguaje grande, desarrollado por el equipo de Google Deepmind, se describe como un “modelo de pensamiento” diseñado para abordar problemas complejos razonando a través de pasos internamente antes de responder. Los primeros puntos de referencia respaldan la confianza de Google: Gemini 2.5 Pro (un primer lanzamiento experimental de la serie 2.5) debutan en el número 1 en la tabla de clasificación Lmarena de asistentes de IA por un margen significativo, y lidera muchas pruebas estándar para la codificación, las matemáticas y las tareas científicas.

Las nuevas capacidades y características clave en Gemini 2.5 Pro incluyen:

  • Razonamiento de la cadena de pensamiento: A diferencia de los chatbots más sencillos, Gemini 2.5 Pro explícitamente “piensa” a través de un problema internamente. Esto lleva a respuestas más lógicas y precisas sobre consultas difíciles, desde rompecabezas lógicos difíciles hasta tareas de planificación complejas.
  • Rendimiento de última generación: Google informa que 2.5 Pro supera los últimos modelos de OpenAI y Anthrope en muchos puntos de referencia. Por ejemplo, estableció nuevos máximos en las pruebas de razonamiento difíciles como el último examen de la humanidad (puntuando 18.8% frente a 14% para el modelo de OpenAI y 8.9% para Anthrope’s), y lidera en varios desafíos de matemáticas y ciencias sin necesidad de trucos costosos como la votación en conjunto.
  • Habilidades de codificación avanzada: El modelo muestra un gran salto en la capacidad de codificación sobre su predecesor. Se destaca en la generación y edición del código para aplicaciones web e incluso scripts autónomos de “agente”. En el punto de referencia de codificación SWE-Bench, Gemini 2.5 Pro alcanzó una tasa de éxito del 63.8%, muy por delante de los resultados de OpenAi, aunque todavía un poco detrás del modelo especializado de “soneto” “soneto” de Anthrope (70.3%).
  • Comprensión multimodal: Al igual que los modelos Gemini anteriores, 2.5 Pro es multimodal nativo: puede aceptar y razonar sobre texto, imágenes, audio, incluso videos e entrada de código en una conversación. Esta versatilidad significa que podría describir una imagen, depurar un programa y analizar una hoja de cálculo, todo dentro de una sola sesión.
  • Ventana de contexto masivo: Quizás lo más impresionante, Gemini 2.5 Pro puede manejar hasta 1 millón de tokens de contexto (con una actualización de tokens de 2 millones en el horizonte). En términos prácticos, eso significa que puede ingerir cientos de páginas de textos o repositorios de código enteros a la vez sin perder el seguimiento de los detalles. Esta larga memoria supera enormemente lo que ofrecen la mayoría de los otros modelos de IA, permitiendo que Gemini mantenga una comprensión detallada de documentos o discusiones muy grandes.

Según Google, estos avances provienen de un modelo base significativamente mejorado combinado con técnicas mejoradas después de la capacitación. En particular, Google también retira la marca separada de “pensamiento flash” que utilizó para Gemini 2.0; Con 2.5, las capacidades de razonamiento ahora están incorporadas de forma predeterminada en todos los modelos futuros. Para los usuarios, eso significa que incluso las interacciones generales con Gemini se beneficiarán de este nivel más profundo de “pensar” debajo del capó.

Implicaciones para la automatización y diseño

Más allá del zumbido de los puntos de referencia y la competencia, la importancia real de Gemini 2.5 Pro puede estar en lo que permite para los usuarios finales e industrias. El fuerte desempeño del modelo en las tareas de codificación y razonamiento no se trata solo de resolver acertijos para alardear de los derechos: insinúa nuevas posibilidades para la automatización del lugar de trabajo, el desarrollo de software e incluso el diseño creativo.

Tome la codificación, por ejemplo. Con la capacidad de generar código de trabajo a partir de un mensaje simple, Gemini 2.5 Pro puede actuar como un multiplicador de proyecto para los desarrolladores. Un solo ingeniero podría potencialmente prototipos de una aplicación web o analizar una base de código completa con asistencia de IA que maneja gran parte del trabajo de gruñidos. En una demostración de Google, el modelo creó un videojuego básico desde cero dada solo una descripción de una oración. Esto sugiere un futuro en el que los no programadores describirán una idea y obtendrán una aplicación en ejecución en respuesta (“codificación de vibos”), bajando drásticamente la barrera para la creación de software.

Incluso para desarrolladores experimentados, tener una IA que pueda comprender y modificar repositorios de código grandes (gracias a ese contexto de 1 m) significa una depuración más rápida, revisiones de código y refactorización. Nos estamos moviendo hacia una era de programadores de pares de IA que pueden mantener el “Gran imagen” de un proyecto complejo en su cabeza, por lo que no tiene que recordarles el contexto con cada aviso.

Las habilidades de razonamiento avanzado de Gemini 2.5 también juegan en la automatización del trabajo de conocimiento. Los primeros usuarios han intentado alimentarse en largos contratos y pedirle al modelo que extraiga cláusulas clave o resume puntos, con resultados prometedores. Imagine automatizar partes de la revisión legal, la investigación de diligencia debida o el análisis financiero al dejar que la IA pase a través de cientos de páginas de documentos y retire lo que importa, tareas que actualmente comen innumerables horas humanas.

La habilidad multimodal de Gemini significa que incluso podría analizar una mezcla de textos, hojas de cálculo y diagramas juntos, dando un resumen coherente. Este tipo de IA podría convertirse en un asistente invaluable para profesionales en derecho, medicina, ingeniería o cualquier campo ahogamiento en datos y documentación.

Para los campos creativos y el diseño de productos, modelos como Gemini 2.5 Pro también abren posibilidades intrigantes. Pueden servir como socios de lluvia de ideas, por ejemplo, que generan conceptos de diseño o copia de marketing mientras razonan sobre los requisitos, o como prototipos rápidos que transforman una idea aproximada en un borrador tangible. El énfasis de Google en el comportamiento de la agente (la capacidad del modelo para usar herramientas y realizar planes de varios pasos de forma autónoma) sugerencias de que las versiones futuras podrían integrarse directamente con el software.

Uno podría imaginar una IA de diseño que no solo sugiere ideas, sino que también navega por el software de diseño o escribe código para implementar esas ideas, todas guiadas por instrucciones humanas de alto nivel. Tales capacidades difuminan la línea entre “Thinker” y “Doer” en el reino de AI, y Gemini 2.5 es un paso en esa dirección, una IA que puede conceptualizar soluciones y ejecutarlas en varios dominios.

Sin embargo, estos avances también plantean preguntas importantes. A medida que AI asume tareas más complejas, ¿cómo nos aseguramos de que comprenda los matices y los límites éticos (por ejemplo, al decidir qué cláusulas de contrato son sensibles o cómo equilibrar los aspectos creativos frente a los aspectos prácticos en el diseño)? Google y otros necesitarán construir barandillas robustas, y los usuarios necesitarán aprender nuevos conjuntos de habilidades, lo que solicita y supervisará la IA, a medida que estas herramientas se convierten en compañeros de trabajo.

No obstante, la trayectoria es clara: modelos como Gemini 2.5 Pro están empujando la IA más profundamente en roles que anteriormente requerían inteligencia humana y creatividad. Las implicaciones para la productividad y la innovación son enormes, y es probable que veamos efectos dominantes en cómo se construyen los productos y cómo se realiza el trabajo en muchas industrias.

Géminis 2.5 y el nuevo campo AI

Con Gemini 2.5 Pro, Google está apostando un reclamo a la vanguardia de la carrera de IA, y enviando un mensaje a sus rivales. Hace solo un par de años, la narración era que la IA de Google (piense en las primeras iteraciones de Bard) estaba rezagada detrás de Chatgpt de OpenAi y los movimientos agresivos de Microsoft. Ahora, al organizar el talento combinado de Google Research y DeepMind, la compañía ha entregado un modelo que puede competir legítimamente por el título del mejor asistente de IA en el planeta.

Esto es un buen augurio para el posicionamiento a largo plazo de Google. Los modelos de IA se consideran cada vez más como plataformas centrales (al igual que los sistemas operativos o los servicios en la nube), y tener un modelo de nivel superior le da a Google una mano fuerte para jugar en todo, desde ofertas de la nube empresarial (Google Cloud/Vertex AI) hasta servicios de consumo como búsqueda, aplicaciones de productividad y Android. A la larga, podemos esperar que la familia Gemini se integre en muchos productos de Google, potencialmente sobrealimentando el Asistente de Google, mejorando las aplicaciones de Google Workspace con características más inteligentes y mejorando la búsqueda con habilidades más conversacionales y conscientes del contexto.

El lanzamiento de Gemini 2.5 Pro también destaca cuán competitivo se ha vuelto el panorama de IA. Operai, antrópico y otros jugadores como Meta y Startups emergentes están iterando rápidamente en sus modelos. Cada salto de una empresa, ya sea una ventana de contexto más amplia, una nueva forma de integrar herramientas o una nueva técnica de seguridad, es respondida rápidamente por otros. El movimiento de Google para incrustar el razonamiento en todos sus modelos es estratégico, asegurando que no se quede atrás en la “inteligencia” de su IA. Mientras tanto, la estrategia de Anthrope de dar a los usuarios más control (como se ve con la profundidad de razonamiento ajustable de Claude 3.7) y los refinamientos continuos de OpenAI a GPT-4.X mantienen la presión sobre.

Para los usuarios finales y los desarrolladores, esta competencia es en gran medida positiva: significa mejores sistemas de IA que llegan más rápido y más opciones en el mercado. Estamos viendo un ecosistema de IA en el que ninguna empresa tiene el monopolio de la innovación, y esa dinámica empuja a cada uno a sobresalir, al igual que los primeros días de la computadora personal o las guerras de teléfonos inteligentes.

En este contexto, la versión de Gemini 2.5 Pro es más que una actualización de productos de Google: es una declaración de intención. Se indica que Google pretende no ser solo un seguidor rápido sino un líder en la nueva era de la IA. La compañía está aprovechando su infraestructura informática masiva (necesaria para entrenar modelos con más de 1 millones de contextos tokens) y vastas recursos de datos para superar los límites que pocos otros pueden. Al mismo tiempo, el enfoque de Google (implementando modelos experimentales para usuarios de confianza, integrando AI en su ecosistema cuidadosamente) muestra un deseo de equilibrar la ambición con la responsabilidad y la practicidad.

Como Koray Kavukcuoglu, CTO de Google Deepmind, lo expresó en el anuncio, el objetivo es hacer que la IA sea más útil y capaz al mejorarlo a un ritmo rápido.

Para los observadores de la industria, Gemini 2.5 Pro es un hito que marca qué tan lejos ha llegado la IA a principios de 2025, y un indicio de hacia dónde va. El bar de “estado del arte” sigue aumentando: hoy es razonamiento y destreza multimodal, mañana podría ser algo así como la resolución de problemas o la autonomía aún más general. El último modelo de Google muestra que la compañía no solo está en la carrera, sino que tiene la intención de dar forma a su resultado. Si Gemini 2.5 tiene algo que ver, la próxima generación de modelos de IA estará aún más integrada en nuestro trabajo y vidas, lo que nos lleva a volver a imaginar cómo usamos la inteligencia de la máquina.

Continue Reading

Noticias

Usé IA para planificar mis comidas durante una semana, esta es mi opinión honesta.

Published

on

Como escritor, siempre he sido reclino de AI. ¿Robará mi trabajo? ¿Terminará tomando el mundo como esos robots en esa película de Will Smith? Dejando de lado mis dramáticas preocupaciones, me encontré increíblemente intrigado cuando recientemente encontré varias publicaciones en X (anteriormente Twitter) por personas que usaban ChatGPT para crear listas de compras y planificar sus comidas durante una semana. Cualquier cosa que haga que esta tarea semanal sea más fácil es algo que pueda respaldar, o al menos probar.

Entonces, como experimento, en lugar de llenar mi carrito de compras con los sospechosos habituales, utilicé ChatGPT para crear un plan de comidas de cinco días y mi lista de compras. Esto es lo que siguió:

El proceso

Para que Chatgpt se encargue de esta tarea para mí, escribí el siguiente comando: “Cree una lista de comestibles y recetas (desayuno, almuerzo, cena y bocadillos) para los lunes a viernes. El presupuesto es de $ 75. No incluya tomates, guisantes u avena. Las recetas deben ser bastante saludables y densas en nutrientes. ¡Gracias!”

Traté de ser lo más específico posible sin hacer demasiado. También quería desafiar a ChatGPT financieramente lanzando un presupuesto modesto. Y me aseguré de mantenerlo lindo y amable con un poco de gratitud al final (me niego a ser Yo, robot‘d). Al recibir mis resultados, había un ingrediente que sabía que quería salir. “Eso es genial, pero no tofu”, escribí al chatbot.

“¡Lo tengo! Ajustaré el plan y eliminaré el tofu, reemplazándolo con otras opciones de proteínas”, respondió ChatGPT, antes de compartir una lista de comestibles y un plan de comidas actualizados.

Y así, tenía una lista completa de comestibles y comidas de lunes a viernes. Aunque ChatGPT hizo todo el trabajo, me sentí productivo de alguna manera. Algo sobre las comidas planeadas para la semana realmente se quita una carga. Tenía esperanzas.

Las comidas

Aquí está el plan de comidas Chatgpt diseñado para mí, a continuación. Para ahorrarle mucha redundancia, he notado algunos, pero no todas, de las instrucciones que Chatgpt me dio en cuanto a la preparación. (La mayoría de estas comidas son bastante fáciles de hacer sin mucha dirección externa).

Lunes

Desayuno: Huevos revueltos con espinacas
Almuerzo
: Ensalada de atún con aceite de oliva, pepinos y zanahorias
Cena: Pollo a la parrilla con batatas asadas y brócoli (Sazone el pollo con sal, pimienta y ajo en polvo, luego sea la parrilla o la sartén; las batatas de cubos y asanlos con aceite de oliva, sal y pimienta a 400 ° F durante 25 minutos; brócoli de vapor).
Bocadillo: Yogurt griego con bayas.

Martes

Desayuno: Yogurt griego con mantequilla de plátano y maní (Corte el plátano y agregue a un tazón de yogurt griego; rocíe con mantequilla de maní para proteínas agregadas).
Almuerzo: Vegetal salteado con pollo y arroz marrón (Corte el pollo y cocine en aceite de oliva hasta que se dore; Agregue verduras congeladas y saltee con salsa de soja; Servir con arroz integral).
Cena: Pechuga de pollo al horno con calabacín asado y batatas
Bocadillo:
Zanahorias con mantequilla de maní

Miércoles

Desayuno: Huevos revueltos con pimiento rojo y espinacas
Almuerzo:
Envoltura de pollo y verduras con pan de trigo integral (Corte el pollo a la parrilla y coloque en una envoltura con espinacas y pepino. Rocíe con aceite de oliva y enrolle.)
Cena:
Salteado de pollo con brócoli y arroz marrón
Bocadillo:
Yogurt griego con llovizna de miel

Jueves

Desayuno: Tostada de mantequilla de plátano y maní
Almuerzo:
Ensalada de atún en tostada de trigo entero (Mezcle el atún enlatado con pepino picado y aceite de oliva; extienda la mezcla sobre pan de trigo integral tostado).
Cena: Pollo horneado con verduras asadas
Bocadillo: Zanahorias con salsa de yogurt griega

Viernes

Desayuno: Veggie Scramble con huevos
Almuerzo:
Tazón de pollo y arroz (Cocine el pollo y córtelo; sirva con arroz integral y brócoli al vapor; rocíe con salsa de soja).
Cena:
Pollo salteado con verduras mixtas y batata
Bocadillo:
Yogurt griego con un puñado de bayas congeladas.

Al revisar las diversas comidas que se proporcionan Chatgpt, desearía que incluya “Hacerlo sabroso” en mi solicitud inicial. Tengo que admitir que mis papilas gustativas estaban bastante aburridas el miércoles. No tengo nada contra el pollo, pero ahora sufro un caso importante de fatiga avícola.

Pinterest

Danielle Harling

Las compras de comestibles

Chatgpt me dio esta lista para hacer mis comidas, junto con su precio para cada artículo:

Desglose del presupuesto:

  • Huevos: $ 2.50
  • Pechuga de pollo (1 lb): $ 6.00
  • TUMA CONDIVADO: $ 1.00
  • Frijoles negros (1 lata): $ 1.00
  • Yogurt griego (32 oz): $ 4.00
  • Espinacas (1 grupo): $ 1.50
  • Brócoli (1 cabeza): $ 2.00
  • Batatas (2): $ 3.00
  • Calabacín (2): $ 1.50
  • Pepino (1): $ 1.00
  • Zanahorias (1 lb): $ 1.50
  • Pimiento rojo (1): $ 1.00
  • Verduras mixtas congeladas: $ 2.00
  • Bananas (2): $ 1.00
  • Manzanas (2): $ 1.50
  • Bayas congeladas: $ 3.00
  • Pan de trigo integral: $ 2.00
  • Arroz marrón: $ 2.00
  • Pasta de trigo integral: $ 1.50
  • Queso cheddar: $ 2.50
  • Leche: $ 1.50
  • Mantequilla de maní: $ 2.00
  • Aceite de oliva, salsa de soja, sal, pimienta, ajo en polvo, cebolla en polvo: ~ $ 6.00

Total: ~ $ 74.50

También incluyó este mensaje agradable en buena medida: “Esto debería estar dentro de su presupuesto mientras mantiene las comidas saludables y equilibradas. ¡Disfruta!”

Primero: el presupuesto. Ya tenía aceite de oliva, salsa de soja y los condimentos disponibles, por lo que no necesitaba comprarlos. Afortunadamente, tenía todos esos ingredientes porque no hay forma de que cuestan solo $ 6 juntos. ¡El aceite de oliva solo es más que eso! (Me pregunté si ChatGPT estaba calculando ese precio según la cantidad que usaría.

Compré más de una sola libra de pollo, no seguro si se trataba de un error de chatgpt, pero dada la cantidad de comidas que llamaban al pollo, me quedé con mi paquete habitual, que está más cerca de una libra y media. Para hacer mis compras, utilicé Instacart, que tiende a ser más caro que ir en persona, pero obtuve dentro de aproximadamente $ 10 de ese presupuesto de $ 75. ¡No está mal, chatgpt!

(Notaré que estaba cocinando para mí, pero con la cantidad de artículos comprados, habría habido mucha comida para uno, tal vez incluso otras dos personas).

Ahora, aquí es donde las cosas se ponen raras. Después de comprar los comestibles, comparé las comidas con la lista de comestibles, y algo importante se destacó. Varios de los artículos enumerados en la lista de compras no se usaron en las comidas. Sé que ChatGPT es plenamente consciente del costo de los comestibles, así que por qué me haría comprar cinco artículos (¡sí, cinco!) Que no necesitaba está más allá de mí. En caso de que se lo pregunte, esos cinco artículos eran una lata de frijoles negros, pasta de trigo integral, queso, manzanas y leche. Sinceramente, todavía estoy rascándome la cabeza sobre este.

plan de comidas chatgptPinterest

Danielle Harling

Dejando a un lado la lista de compras, estaba emocionado de probar algunas recetas nuevas (y saludables). Y me complace decir que encontré algunos favoritos nuevos gracias a este pequeño experimento. Entre mis recetas favoritas estaban el yogur griego con plátanos y mantequilla de maní (también agregué una llovizna de miel) y salteado de verduras con pollo y arroz integral.

Pero, hubo casos en los que se sentía absolutamente como si las comidas fueran planificadas por un robot. Por ejemplo, una envoltura de sándwich hecha “usando pan de trigo integral” me pareció un poco extraño. ¿Cómo “enrollar” una rebanada de pan? Y las bayas frescas habrían sido una mejor compra que las bayas congeladas, dado que las estaba usando como una cobertura de yogurt.

El veredicto

El fiasco de la lista de comestibles me apagó, pero avanzé. Y tal vez debería haber presionado ese carrito de comestibles virtual muy, muy lejos porque, en última instancia, esta es una técnica sin la que puedo prescindir. Además de un puñado de favoritos, las comidas sugeridas eran decepcionantes. La conveniencia de todo simplemente no valió la pena para mí. Estoy seguro de que obtendría mejores resultados con un presupuesto más grande y solicitudes más específicas, pero prefiero trabajar con una persona humana real en un plan de comidas que se adapte a mí individualmente.

¡Ahora, por favor envíeme todas sus recetas favoritas de pollo y sin atún!

Marca de letras

Danielle Harling es una escritora independiente con sede en Atlanta con un amor por los espacios diseñados con colores, cócteles artesanales y compras en línea (generalmente para tacones de diseñador que rompen el presupuesto). Su trabajo anterior ha aparecido en Fodor’s, Forbes, Mydomaine, Architectural Digest y más.

Continue Reading

Noticias

ChatGPT acaba de obtener una gran actualización de generación de imágenes

Published

on

Sí, esto es AI.

Crédito: OpenAI


Operai ha aumentado significativamente las capacidades de generación de imágenes de ChatGPT, agregando la actualización como parte del modelo GPT-4O introducido en mayo pasado. El nuevo y mejorado generador de IA se está implementando ahora para todos los usuarios de ChatGPT, en todos los planes pagos y el nivel gratuito (aunque los usuarios gratuitos están más restringidos en cuánto pueden usarlo).

Ha sido posible generar imágenes a través de la interfaz CHATGPT durante un tiempo, aunque detrás de escena el trabajo fue cultivado en el modelo de imagen Dall-E 3. Ahora, todo será manejado por GPT-4O, para una experiencia más consistente y nativa.

Aquí hay muchas mejoras, que cubren algunas de las áreas con las que las herramientas de creador de imágenes de IA generalmente han luchado: representar texto, mantener a los personajes consistentes en las imágenes y los diagramas de dibujo. Operai dice que ahora puede esperar “más preciso, preciso, [and] Resultados fotorrealistas “de sus indicaciones.

Imágenes más realistas y precisas

Las imágenes generadas no son perfectas cada vez, pero se están acercando mucho.
Crédito: Lifehacker a través de chatgpt

Las imágenes hechas con IA a menudo vienen con un brillo artificial que te dice que han sido soñados por algoritmos, y eso debería ser menos obvio con las imágenes GPT-4O. Una de las imágenes de demostración mostradas por OpenAi tiene una mujer escribiendo en una pizarra, con una vista reflejada en ella, todo bien como por vida, aunque tenga en cuenta el pequeño subtítulo en la parte inferior que le dice que este fue el mejor de los ocho intentos que Chatgpt tenía en el aviso.

Los usuarios de arte de IA crean también deberían mantenerse más estrechamente a las indicaciones dadas, dice Openai. Entonces, si desea objetos específicos en lugares específicos, o necesita personas en ciertas posiciones, entonces estas instrucciones aparentemente se llevarán a cabo de manera más fiel. Una de las imágenes de ejemplo más impresionantes muestra una tira cómica de cuatro paneles representada por ChatGPT, sin errores o inconsistencias obvias.

Traté de hacer que Chatgpt convirtiera una novela de Austen en una tira cómica y produzca una imagen fotorrealista de una casa majestuosa con un jardín, y los resultados fueron impresionantes, si no es perfecto. Ciertamente son significativamente mejores de lo que el chatgpt de imágenes estaba produciendo anteriormente, aunque la representación lleva más tiempo completarse (generalmente minutos en lugar de segundos).

El texto y los diagramas se mejoran enormemente

Libro de Christie

El texto ya no es un problema importante, por lo que se pueden hacer portadas de libros falsos con facilidad.
Crédito: Lifehacker a través de chatgpt

Tratar de lograr que la IA represente el texto y los diagramas con precisión ha sido un desafío durante mucho tiempo: la forma en que se construyen estas herramientas significa que son mucho mejores para inventar y remezclar las imágenes en las que han sido entrenadas, en lugar de reproducir una copia exacta del alfabeto o una serie de rectángulos y flechas.

El nuevo modelo GPT-4O puede hacer que el texto y los diagramas a un alto nivel de detalle y precisión, por lo que no debe ver tantos errores e inconsistencias extrañas. El showreel de OpenAI incluyó un menú, una invitación, un pase de embarque y un diagrama que explica el experimento de prisma de Newton, todo generado a partir de un solo mensaje de texto.

Cuando le pedí a ChatGPT que produjera una infografía que explicara el ADN en términos simples, y una portada del libro con un título y autor especificados, siguió el resumen exactamente: el gráfico era básico pero preciso (según el mensaje), y la portada del libro parecía algo que podría ver en una tienda. Igual de importante, no había artefactos extraños o inconsistencias en las imágenes.

Consistencia y edición

Imágenes del profesor

Profesor, ¿eres tú? La consistencia de carácter e imagen todavía necesita algo de trabajo.
Crédito: Lifehacker a través de chatgpt

He escrito antes sobre las limitaciones de la edición de imágenes de ChatGPT, y esta es otra área que se ha actualizado. Ahora es más fácil mantener a los personajes y escenas consistentes entre las imágenes, solo ajustar partes de una imagen y dejar el resto intacta, y construir diferentes capas de una imagen. Incluso puede crear fondos transparentes, si es necesario, o especificar colores utilizando códigos hexadecimales.

¿Qué piensas hasta ahora?

Otras mejoras entran en la forma en que ChatGPT puede aceptar y remezcar sus propias imágenes, e incorporar otra información (de la web y sus datos de capacitación): por lo tanto, una de las imágenes de demostración Operai se construyó a partir de la pronta. “Haga una infografía visual que describa por qué SF está tan nebulosa” y ChatGPT hizo exactamente eso (bueno, mejor tres).

En mis propias pruebas, encontré chatgpt mucho mejor en la edición de imágenes y bastante competente en la remezcla de imágenes en diferentes estilos. Todavía lucha hasta cierto punto manteniendo la consistencia entre las imágenes, especialmente con objetos y caracteres complejos. Definitivamente es mejor de lo que fue en esto, pero todavía hay una tendencia a exagerar las ediciones, haciendo que la IA sea menos útil para ajustar imágenes o hacer una serie de varias imágenes que necesitan coincidir.

Experimento de Newton

Los diagramas ahora son mucho menos sin sentido y más precisos.
Crédito: OpenAI

Al igual que con cualquier anuncio generativo de IA, los problemas sobre los derechos de autor, el mal uso y las demandas de energía se me recuerdan una vez más. Operai está registrado diciendo que es imposible construir estas herramientas sin capacitar en imágenes con derechos de autor, aunque recientemente ha comenzado a firmar ofertas de contenido con proveedores como Shutterstock. Brad Lightcap, director de operaciones de OpenAi, le dijo al Wall Street Journal que el generador de imágenes GPT-4O rechazará las solicitudes para imitar el trabajo de cualquier artista vivo.

Cuando se trata de seguridad, Operai dice que las imágenes generadas vienen con metadatos C2PA para identificarlas como generadas por IA, aunque estos metadatos se pueden eliminar fácilmente con algo tan simple como una captura de pantalla. El generador de IA también está construido para rechazar cualquier intento de crear “materiales de abuso sexual infantil y defectos sexuales”, dice OpenAi, así como otras indicaciones que violan sus políticas de contenido.

Este es claramente un gran paso adelante para las imágenes de IA: la tecnología actualizada es realmente asombrosa a veces, y muchos de los signos reveladores de IA y los errores cometidos por la tecnología están desapareciendo. Sin embargo, plantea algunas preguntas importantes sobre el futuro, todos corremos, uno en el que las falsificaciones se realizan tan fácilmente, donde los robots realizan el trabajo creativo en lugar de las personas, y donde perdemos colectivamente nuestra capacidad de dibujar una imagen, crear una oración o escribir una línea de código. Y luego, ¿cómo encontrará la IA generativa más datos de entrenamiento?

Continue Reading

Trending