Noticias

Todo lo que necesitas saber

Published

4 meses ago

1 enero, 2025

Lanzado inicialmente en diciembre de 2023, Google Gemini ha experimentado recientemente una actualización sustancial con el lanzamiento a principios de diciembre de Gemini 2.0. Está diseñado para lo que Google llama la “era agente”, con capacidades que le permiten actuar de manera más independiente en procesos complejos de varios pasos.

Otras mejoras principales incluyen procesamiento nativo de imágenes y audio, tiempos de respuesta más rápidos, capacidades de codificación mejoradas y nuevas integraciones que se están desarrollando con otras aplicaciones y soluciones de Google para ayudar a alimentar su teléfono inteligente, computadora y otros dispositivos conectados con Android.

Relacionado

5 formas sencillas de potenciar tu Android con Google Gemini

¿El asesino del Asistente de Google?

Una avalancha vertiginosa de nuevos modelos Gemini

Google ha estado lanzando un montón de modelos de IA diferentes últimamente, con múltiples versiones nuevas lanzadas en las últimas semanas. En ciertos aspectos, como la velocidad en Flash 2.0, las mejoras son fácilmente perceptibles. Otros están en áreas más especializadas, como la codificación. Mientras tanto, 2.0 Pro aún está en desarrollo.

Los nuevos modelos 2.0 están disponibles en escritorio y, más recientemente, en la aplicación móvil Gemini, donde encontrarás un selector para elegir entre ellos. Y no olvidemos el modelo Nano en el dispositivo, que ya incluye ciertas funciones de Google Pixel, como los resúmenes de llamadas. También vale la pena señalar que otro modelo nuevo, 2.0 Experimental Advanced, apareció en el escritorio en los últimos días.

Sin embargo, como señala Taylor Kerns, Géminis se está volviendo más complejo y cada vez es más difícil realizar un seguimiento de todas las variantes. Como no hay mucha información disponible sobre Experimental Advanced, me quedé con los dos en la comparación a continuación.

Característica	Géminis 1.5 Pro	Experimental Flash Géminis 2.0
Ventana de contexto	1 millón de tokens (alrededor de 750.000 palabras o 1.500 páginas de texto)	1 millón de tokens (alrededor de 750.000 palabras o 1.500 páginas de texto)
Velocidad	Respuestas en unos segundos	Aproximadamente 2 veces más rápido
Consumo de energía	Más alto	Más bajo
Razonamiento/Lógica	Fuerte razonamiento y colaboración.	Reclama un razonamiento mejorado y agrega capacidades de agente
Multimodal	Imagen y audio convertidos a texto para su procesamiento.	Procesamiento nativo de imágenes y audio. Ahora puede “hablar” usando voces de IA.
Creación de imágenes	fue suspendido	Apoyado
Codificación	Puede generar código	Puede generar y ejecutar código, analizar respuestas API e integrar datos en aplicaciones externas.

Gemini 2.0 Flash tiene que ver con velocidad y eficiencia

Fuente: Google

Como sugiere el nombre, Gemini 2.0 Flash está diseñado para la velocidad. Google afirma que duplica la velocidad de su predecesor y, como usuario de 1.5 Pro y 2.0 Flash Experimental, puedo dar fe de su rapidez.

2.0 proporciona respuestas casi instantáneas a las mismas consultas que podrían tardar unos segundos en 1.5 Pro. Puede que esto no parezca un impacto enorme, pero la respuesta instantánea abre un nuevo potencial para aplicaciones en tiempo real, como las interacciones de voz. También hace que la experiencia general del usuario parezca más refinada. A pesar de su mayor potencia, Gemini 2.0 Flash también está diseñado para ser más eficiente energéticamente, lo que podría traducirse directamente en una mejor duración de la batería de su teléfono inteligente.

Gemini 2.0 Flash ofrece capacidades mejoradas en otras áreas centrales. Google dice que supera a Gemini 1.5 Pro en tareas complejas como codificación, matemáticas y razonamiento lógico. Además, Gemini 2.0 Flash ahora puede ejecutar código directamente, procesar de forma autónoma respuestas API y llamar a funciones definidas por el usuario. 2.0 está empezando a parecerse más a una solución de desarrollo de un extremo a otro que a un simple generador de código.

Géminis quiere ser tu agente de IA

La IA agente lleva a Gemini hacia la asistencia proactiva. Esto significa que Gemini ahora puede actuar como agente y realizar tareas de varios pasos en su nombre. Las aplicaciones futuras incluirán de todo, desde juegos y robótica hasta planificación de viajes.

Digamos que estás planeando un viaje a Tokio. En lugar de simplemente pedirle a Gemini sugerencias turísticas, podría pedirle que “cree un itinerario detallado para un viaje de 5 días a Tokio, que incluya atracciones imperdibles, recomendaciones de restaurantes locales y costos estimados”. Probé exactamente este mensaje y la plataforma generó un itinerario diario convincente para mí. Pero todavía faltan componentes.

En teoría, Géminis podría incluso ir más allá reservando vuelos y alojamiento, reservando mesas en restaurantes y mucho más. De hecho, Flash 2.0 se integra con Google Flights y puede mostrar la disponibilidad de hoteles en su destino, pero el paso final de automatizar todo el proceso aún está por llegar. Es fácil ver que esto podría ser difícil de resolver, ya que reservar el vuelo equivocado, por ejemplo, puede literalmente conllevar un precio elevado. ¡Imagina una IA que te reserva un viaje al Springfield equivocado!

Gemini 2.0 puede ver, oír y hablar

Los avances en entrada y salida multimodal dentro de Gemini 2.0 son otra característica clave. Al integrar perfectamente información de diversas fuentes como texto, imágenes, vídeo y audio, Gemini 2.0 puede experimentar el mundo de forma más parecida a como lo hacemos nosotros. Esto allana el camino para una comunicación más humana.

Gemini 2.0 ahora puede conversar usando una voz AI. En la aplicación móvil, encontré varias voces diferentes para elegir, seleccioné una que me gustó y tuve una conversación fluida y sorprendentemente natural en la que le hice preguntas a la IA sobre una ciudad que me gustaría visitar. El nivel de esfuerzo fue definitivamente menor que escribir consultas y leer respuestas. Si bien esta funcionalidad no es nueva para la industria (piense en las aplicaciones “complementarias” de IA), sí lo es para Gemini.

El procesamiento nativo de imágenes y audio ofrece mejoras notables

Una mejora interesante en Gemini 2.0 es su capacidad para procesar imágenes y audio directamente. Por el contrario, sus predecesores convertían estas entradas en texto, lo que provocaba una mayor pérdida de información. El procesamiento directo permite una comprensión más profunda de la entrada. Gemini 2.0 no sólo puede identificar elementos dentro de una imagen o audio, sino que también puede comprender las interrelaciones y la escena en su conjunto.

Durante las pruebas, introduje en Gemini 2.0 Flash una imagen que tomé mirando desde mi oficina. En primer plano hay una mampara de ventana, mientras que en el medio hay arbustos y otros objetos. La IA supo de inmediato que la foto fue tomada a través de una pantalla y describió con gran detalle otros elementos de la escena. En general, descubrí que el modelo 2.0 ofrece un análisis de imágenes más matizado y detallado que la versión anterior.

La generación de imágenes de Géminis ha vuelto, pero ¿a alguien le importa?

A pesar de la fanfarria en torno a las capacidades mejoradas de Gemini 2.0, el regreso de su función de generación de imágenes Imagen fue un poco aburrido. Después de la controversia inicial y la posterior desactivación de la función debido a sesgos e imprecisiones, el relanzamiento parece poco interesante. Tal vez Imagen se haya diluido para evitar controversias adicionales, o tal vez sea simplemente que la novedad de la generación de imágenes mediante IA desapareció durante la larga pausa de Google.

La imagen de arriba es lo que Gemini 2.0 Flash Experimental creó cuando se le pidió “crear la imagen más interesante que pueda evocar”. Si bien entiendo que es un mensaje subjetivo, aun así llamaría al resultado decepcionante. En el mejor de los casos, parece una escena de un videojuego.

A través de más experimentación, cuando le pedí a 2.0 Flash Experimental simplemente que “creara una imagen de personas”, se negó. Volver a 1.5 Pro y dar el mismo mensaje resultó en una imagen similar a una fotografía de archivo de un grupo de amigos en colores vibrantes. Con Imagen, vemos a través de los ojos de la IA de Google y su perspectiva no es muy inspiradora.

Nuevas integraciones presagian el futuro

Fuente: Google

Al integrar las capacidades de Gemini en servicios centrales como Búsqueda, Maps y Workspace, Google pretende ofrecer una experiencia de usuario más unificada.

En el futuro, sus consultas de búsqueda en Google generarán respuestas dinámicas impulsadas por inteligencia artificial que probablemente aprovecharán información de sus correos electrónicos, documentos e incluso su historial de ubicaciones para brindar resultados más relevantes personalmente. Google ya está experimentando con resúmenes de búsqueda de IA que incluyen descripciones generales de audio al estilo de su producto hermano, NotebookLM.

Iniciativas iniciales como el Proyecto Astra y el Proyecto Mariner finalmente están viendo la luz en los últimos modelos Gemini. Astra comprende la experimentación con agentes de código impulsados por IA, como Jules. Mientras tanto, Mariner podría permitir tareas como completar formularios automáticamente o resumir páginas web. Estos proyectos son esencialmente los pilares filosóficos sobre los que Google desarrolla sus aplicaciones y servicios de IA.

Relacionado

El modelo experimental Gemini 2.0 Advanced de Google ya está aquí, pero no para todos

La suscripción gratuita de tu Pixel puede resultarte útil

Google está construyendo una base sólida de inteligencia artificial con Gemini

Gemini 2.0 es un importante paso adelante para la IA de Google, ya que ofrece velocidades más rápidas, razonamiento mejorado y una integración multimodal perfecta. El mediocre retorno de la generación de imágenes y la confusa variedad de variantes de modelos resaltan las complejidades de esta categoría en rápido movimiento.

Sin embargo, los avances en IA agente, nuevas capacidades de codificación, voz e imagen, junto con una integración más profunda con los servicios centrales de Google presagian cosas buenas por venir en 2025.

Noticias

Operai anuló las preocupaciones de los evaluadores expertos para liberar Sycophantic GPT-4O

Published

8 horas ago

3 mayo, 2025

Sergio Villanueva

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

Ha sido una semana de revés para la compañía de IA generativa número uno en términos de usuarios.

Operai, creador de ChatGPT, lanzado y luego retiró una versión actualizada del modelo de lenguaje grande (texto, imagen, audio) subyacente (LLM) que ChatGPT está conectado de forma predeterminada, GPT-4O, debido a que es demasiado sycofánico para los usuarios. La compañía reportó recientemente al menos 500 millones de usuarios semanales activos del servicio web exitoso.

Un manual rápido en la terrible, sin buena actualización Sycophantic GPT-4O

Operai comenzó a actualizar GPT-4O a un modelo más nuevo que esperaba que los usuarios fueran más recibidos por los usuarios el 24 de abril, completado la actualización del 25 de abril y, luego, cinco días después, lo volvió al 29 de abril, después de días de crecientes quejas de los usuarios en las redes sociales, principalmente en X y Reddit.

Las quejas variaron en intensidad y en detalles, pero todas generalmente se unieron en torno al hecho de que GPT-4O parecía estar respondiendo a las consultas de los usuarios con halagos excesivos, apoyo para ideas equivocadas, incorrectas y francamente dañinas, y “pesando” o elogiando al usuario a un grado excesivo cuando en realidad no se solicitó, mucho menos justificado.

En ejemplos captados y publicados por los usuarios, ChatGPT impulsado por ese modelo Sycofantántico y actualizado GPT-4O había elogiado y respaldado una idea de negocio para “mierda en un palo” literal, aplaudió el texto de muestra de un usuario de aislamiento delirante esquizofrénico, e incluso supuestamente apoyó a los planes para cometer terrorismo.

Los usuarios, incluidos los principales investigadores de IA e incluso un ex CEO interino de Openai, dijeron que les preocupaba que las animadoras descaradas de un modelo de IA por este tipo de indicaciones terribles de los usuarios fueran más que simplemente molestas o inapropiadas, que podría causar daños reales a los usuarios que creían erróneamente la IA y se sintió incorporada por su apoyo por sus peores ideas e impulsas. Se elevó al nivel de un problema de seguridad de IA.

Luego, Operai lanzó una publicación de blog que describe lo que salió mal: “Nos centramos demasiado en los comentarios a corto plazo y no explicamos completamente cómo las interacciones de los usuarios con ChatGPT evolucionan sobre el tiempo. Como resultado, GPT-4O se sesgó hacia las respuestas que fueron demasiado solidarias pero falsas”, y los pasos que la compañía estaba tomando para abordar los problemas. La jefa de comportamiento de modelo de OpenAi, Joanne Jang también participó en un foro de “preguntarme cualquier cosa” o AMA que respondió publicaciones de texto de los usuarios y reveló más información sobre el enfoque de la compañía a GPT-4O y cómo terminó con un modelo excesivamente sycofántico, incluida no “BAK[ing] En suficientes matices “, en cuanto a cómo estaba incorporando la retroalimentación de los usuarios, como las acciones de” pulgar hacia arriba “realizadas por los usuarios en respuesta a los resultados del modelo que les gustaba.

Ahora hoy, Openai ha lanzado una publicación de blog con aún más información sobre cómo ocurrió la actualización sycophantic GPT-4O, acreditada no a ningún autor en particular, sino a “OpenAi”.

El CEO y cofundador Sam Altman también publicó un enlace a la publicación del blog en X, diciendo: “Nos perdimos la marca con la actualización GPT-4O de la semana pasada. Lo que sucedió, lo que aprendimos y algunas cosas que haremos de manera diferente en el futuro”.

Lo que revela la nueva publicación del blog de Operai sobre cómo y por qué GPT-4O se volvió tan sycophantic

Para mí, un usuario diario de ChatGPT, incluido el modelo 4O, la admisión más sorprendente de la nueva publicación de blog de OpenAi sobre la actualización de la skocancia es cómo la compañía parece revelar que es hizo Reciba inquietudes sobre el modelo antes de la liberación de un pequeño grupo de “probadores expertos”, pero que aparentemente anuló a los que están a favor de una respuesta entusiasta más amplia de un grupo más amplio de usuarios más generales.

Como la compañía escribe (énfasis mía):

“Si bien hemos tenido discusiones sobre los riesgos relacionados con la skofancia en GPT-4O por un tiempo, la sycophancy no se marcó explícitamente como parte de nuestras pruebas prácticas internas, ya que algunos de nuestros probadores expertos estaban más preocupados por el cambio en el tono y el estilo del modelo. Sin embargo. Algunos probadores expertos habían indicado que el comportamiento del modelo se “sentía” ligeramente …

“Luego tuvimos que tomar una decisión: ¿deberíamos retener la implementación de esta actualización a pesar de las evaluaciones positivas y los resultados de las pruebas A/B, basadas solo en los banderas subjetivas de los probadores expertos? Al final, decidimos lanzar el modelo debido a las señales positivas de los usuarios que probaron el modelo.

“Desafortunadamente, esta fue la llamada equivocada. Construimos estos modelos para nuestros usuarios y, aunque los comentarios de los usuarios son críticos para nuestras decisiones, en última instancia, es nuestra responsabilidad interpretar esa retroalimentación correctamente “.

Esto me parece un gran error. ¿Por qué incluso tener evaluadores expertos si no vas a soportar su experiencia más alto que las masas de la multitud? Le pregunté a Altman sobre esta elección en X pero aún no ha respondido.

No todas las ‘señales de recompensa’ son iguales

La nueva publicación de blog post mortem de OpenAI también revela más detalles sobre cómo la compañía capacita y actualiza nuevas versiones de los modelos existentes, y cómo la retroalimentación humana altera las cualidades del modelo, el carácter y la “personalidad”. Como la compañía escribe:

“Desde que lanzó GPT – 4O en ChatGPT en mayo pasado, hemos lanzado cinco actualizaciones importantes centrado en los cambios en la personalidad y la ayuda. Cada actualización implica un nuevo post-entrenamiento, y a menudo muchos ajustes menores al proceso de capacitación del modelo se prueban de forma independiente y luego se combinan en un solo modelo actualizado que luego se evalúa para el lanzamiento.

“Para los modelos posteriores al entrenamiento, tomamos un modelo base previamente capacitado, supervisamos el ajuste fino en un amplio conjunto de respuestas ideales escritas por humanos o modelos existentes, y luego ejecutamos el aprendizaje de refuerzo con señales de recompensa de una variedad de fuentes.

“Durante el aprendizaje de refuerzo, presentamos el modelo de idioma con un aviso y le pedimos que escriba respuestas. Luego calificamos su respuesta de acuerdo con las señales de recompensa y actualizamos el modelo de idioma para que sea más probable que produzca respuestas de mayor calificación y menos probabilidades de producir respuestas con menor calificación.“

Claramente, las “señales de recompensa” utilizadas por Operai durante el post-entrenamiento tienen un enorme impacto en el comportamiento del modelo resultante, y como la compañía admitió anteriormente cuando superó las respuestas de “pulgares” de los usuarios de ChatGPT a sus salidas, esta señal puede no ser la mejor para usar igualmente con otros al determinar a otros. cómo El modelo aprende a comunicarse y que tipos de respuestas debería estar sirviendo. Operai admite esto directamente en el próximo párrafo de su publicación, escribiendo:

“Definir el conjunto correcto de señales de recompensa es una pregunta difícil, y tenemos muchas cosas en cuenta: son las respuestas correctas, ¿son útiles? ¿Están en línea con nuestra especificación de modelo, están seguros, usan usuarios como ellos, y así sucesivamente? Tener mejores y más completas señales de recompensa produce mejores modelos para ChatGPT, por lo que siempre estamos experimentando con nuevas señales, pero cada uno tiene sus Quirks”.

De hecho, OpenAi también revela que la señal de recompensa de “pulgares hacia arriba” fue una nueva utilizada junto con otras señales de recompensa en esta actualización en particular.

“La actualización introdujo una señal de recompensa adicional basada en los comentarios de los usuarios: los datos de thumbs y pulgar de ChatGPT. Esta señal a menudo es útil; un pulgar hacia abajo generalmente significa que algo salió mal”.

Sin embargo, de manera crítica, la compañía no culpa a los nuevos datos de “pulgar hacia arriba” directamente por el fracaso del modelo y los comportamientos de porristas ostentosos. En su lugar, la publicación del blog de Openai dice que fue esta conjunto Con una variedad de otras señales de recompensa nuevas y antiguas, condujo a los problemas: “… Tuvimos mejoras de candidatos para incorporar mejor la retroalimentación, la memoria y los datos más frescos, entre otros. Nuestra evaluación temprana es que cada uno de estos cambios, que se habían visto beneficiosos individualmente, puede haber jugado un papel en la escalada sobre la sycofancia cuando se combinó”.

Al reaccionar a esta publicación de blog, Andrew Mayne, un ex miembro del personal técnico de Operai que ahora trabaja en la firma de consultoría de IA Interdimensional, escribió en X de otro ejemplo de cómo los cambios sutiles en los incentivos de recompensa y las pautas del modelo pueden afectar el rendimiento del modelo de manera bastante drástica:

“Al principio de OpenAi, tuve un desacuerdo con un colega (que ahora es un fundador de otro laboratorio) sobre el uso de la palabra “cortés” en un pronta ejemplo que escribí.

Argumentaron que “cortés” era políticamente incorrecto y querían cambiarlo por “útil”.

Señalé que centrarse solo en la ayuda puede hacer que un modelo sea demasiado compatible, de hecho, de hecho, que puede ser dirigido a contenido sexual en unos pocos turnos.

Después de demostrar ese riesgo con un intercambio simple, el aviso se mantuvo “cortés”.

Estos modelos son raros.“

Cómo Operai planea mejorar sus procesos de prueba modelo en el futuro

La compañía enumera seis mejoras en el proceso sobre cómo evitar un comportamiento de modelo indeseable y menos ideal en el futuro, pero para mí lo más importante es esto:

“Ajustaremos nuestro proceso de revisión de seguridad para considerar formalmente los problemas de comportamiento, como la alucinación, el engaño, la confiabilidad y la personalidad, como preocupaciones de bloqueo. Incluso si estos problemas no son perfectamente cuantificables hoy en día, nos comprometemos a bloquear los lanzamientos en función de las mediciones de proxy o las señales cualitativas, incluso cuando las métricas como las pruebas A/B se ven bien”.

En otras palabras, a pesar de lo importantes que los datos, especialmente los datos cuantitativos, son los campos del aprendizaje automático y la inteligencia artificial, OpenAi reconoce que esto solo no puede y no debe ser el único medio por el cual se juzga el rendimiento de un modelo.

Si bien muchos usuarios que proporcionan un “pulgar hacia arriba” podrían indicar un tipo de comportamiento deseable a corto plazo, las implicaciones a largo plazo sobre cómo responde el modelo de IA y dónde lo llevan esos comportamientos y sus usuarios podrían conducir a un lugar muy oscuro, angustioso, destructivo y indeseable. Más no siempre es mejor, especialmente cuando está limitando el “más” a algunos dominios de señales.

No es suficiente decir que el modelo aprobó todas las pruebas o recibió una serie de respuestas positivas de los usuarios: la experiencia de los usuarios avanzados capacitados y sus comentarios cualitativos de que algo “parecía” sobre el modelo, incluso si no podían expresar por qué, debería tener mucho más peso que OpenAi estaba asignando anteriormente.

Esperemos que la empresa, y todo el campo, aprenda de este incidente e integre las lecciones en el futuro.

Control y consideraciones más amplias para los tomadores de decisiones empresariales

Hablando quizás más teóricamente, para mí, también indica por qué la experiencia es tan importante, y específicamente, la experiencia en los campos más allá de y afuera de la que está optimizando (en este caso, aprendizaje automático e IA). Es la diversidad de la experiencia la que nos permite como especie lograr nuevos avances que beneficien a nuestro tipo. Uno, digamos, STEM, no necesariamente debe mantenerse por encima de los demás en las humanidades o las artes.

Y finalmente, también creo que revela en su corazón un problema fundamental con el uso de comentarios humanos para diseñar productos y servicios. Los usuarios individuales pueden decir que les gusta una IA más sycofántica basada en cada interacción aislada, al igual que también pueden decir que aman la forma en que la comida rápida y los soda saben, la conveniencia de los contenedores de plástico de un solo uso, el entretenimiento y la conexión que derivan de las redes sociales, la validación de la cosmovisión y el tribalista que se sienten cuando leen los medios políticos o el chismoso de los tabloides. Una vez más, tomados todos juntos, el acumulación De todos estos tipos de tendencias y actividades, a menudo conduce a resultados muy indeseables para los individuos y la sociedad: obesidad y mala salud en el caso de la comida rápida, la contaminación y la interrupción endocrina en el caso de los desechos plásticos, la depresión y el aislamiento de la sobreindulgencia de las redes sociales, un cuerpo más astillado y menos informado público de la lectura de noticias de mala calidad.

Los diseñadores de modelos de IA y los tomadores de decisiones técnicos en Enterprises harían bien en tener en cuenta esta idea más amplia al diseñar métricas en torno a cualquier objetivo medible, porque incluso cuando cree que está utilizando datos para su ventaja, podría ser contraproducente de una manera que no esperaba o anticipar completamente, dejando su lucha para reparar el daño y el MOP que hizo, sin embargo, sin embargo.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

Noticias

Si necesita una razón para actualizar a chatgpt plus, es esto

Published

14 horas ago

2 mayo, 2025

Sergio Villanueva

Suscribirse a ChatGPT puede parecer inútil, pero teniendo en cuenta cuán bueno se ha vuelto GPT-4O, es hora de reconsiderar seriamente sus reservas.

9

Investigación profunda

Siempre puede realizar una cantidad decente de investigación con ChatGPT, pero las capacidades del software se han expandido significativamente con GPT-4O. La investigación profunda es el mejor ejemplo de esto.

Si bien puede usar la herramienta de investigación profunda de ChatGPT con la versión gratuita, no recibirá tantas solicitudes como con la versión Plus. Cuando avise a través de una investigación profunda, ChatGPT hará una búsqueda web integral. Puede extraer listas de lectura, estadísticas y mucho más.

Dada la medida en que la investigación profunda hace su trabajo, deberá esperar unos minutos para que se completen los resultados. Pero teniendo en cuenta cuán completas son las respuestas, vale la pena esperar. Al momento de escribir en mayo de 2025, obtienes 25 solicitudes de investigación profunda por mes.

8

Mejor razonamiento

El razonamiento fue un gran problema en las versiones anteriores de ChatGPT, pero con el tiempo, GPT-4O se ha vuelto mucho mejor a este respecto. Si bien aún no está en el mismo nivel de perplejidad, obtendrá respuestas integrales cuando solicite un razonamiento más profundo.

Chatgpt dada un conjunto de datos de anamoly de temperatura para observar tendencias con capacidad de razonamiento habilitado

Puede usar esta función en todo tipo de conversaciones. Si bien tiene sentido al investigar, también puede encontrar uso en solicitar un razonamiento más profundo cuando establezca objetivos. A veces, pedir esto puede ayudar a aplicar más lógica a las decisiones que tome también.

Además de leer sus indicaciones, ChatGPT puede razonar usando las imágenes que sube.

7

Menos respuestas robóticas

ChatGPT nunca reemplazará las conversaciones humanas, pero ahora suena mucho menos robótica. Al intercambiar mensajes con el chatbot, sentirás que estás hablando con una persona. El software puede usar el lenguaje humano y los coloquialismos, y tiene la inteligencia para hacer preguntas legítimas.

Con GPT-4O, ChatGPT es más probable que dé respuestas honestas cuando lo pides. En lugar de actuar como su mayor animadora, la herramienta puede racionalizar sus puntos y tiene menos miedo de estar en desacuerdo con usted. Sin embargo, es posible que a veces deba ajustar esto, con indicaciones como “Por favor, sea honesto y no tenga miedo de estar en desacuerdo”.

6

Mejor generación de imágenes

Dall-E era un generador de imágenes AI útil, pero tenía numerosos problemas que necesitaban abordar. Por ejemplo, fue notoriamente malo para crear texto; Cualquier cosa más que palabras simples se convirtió rápidamente en un problema.

Aunque ocasionalmente comete errores, GPT-4O es mucho mejor para generar imágenes. Los humanos interactúan mejor con los objetos, y la aplicación escucha para solicitar más. Cuando se combina con las funciones de edición de ChatGPT, obtienes un fuerte generador de imágenes de IA de AI, aunque Adobe Firefly es aún mejor.

Captura de pantalla de la biblioteca con una imagen de chatgpt generada en gpt-4o

Una molestia es que incluso ahora, GPT-4O a veces no escucha solicitudes. Independientemente de cuántas veces vuelva a palabras el mensaje, Chatgpt a veces simplemente no hará lo que le pidió. Con suerte, esto se planchará con suficiente tiempo.

5

Procesamiento más rápido

Soy lo que describirías como un usuario de Power de ChatGPT, y como resultado, he notado cambios sutiles, como mayores velocidades de procesamiento. Por lo que he visto, GPT-4O lleva menos tiempo para elaborar respuestas.

Las conversaciones generalmente fluyen mucho más rápido, especialmente cuando el software no tiene que buscar en la web o actualizar la memoria. La aplicación web podría usar algunas mejoras, a medida que las velocidades de conversación se disminuyen a medida que crecen, pero sigue siendo significativamente mejor que antes.

Dado que puede hablar más rápidamente con la herramienta en estos días, es aún más fácil ahorrar tiempo y lograr más con ChatGPT.

4

Ofreciendo más sugerencias

Las versiones anteriores de CHATGPT a menudo se sentían como usar la aplicación como una idea unilateral LaunchPad. Puede recibir sugerencias si provocó manualmente el chatbot, pero rara vez tomó la iniciativa por sí sola. Sin embargo, GPT-4O es mucho mejor para dar sugerencias sin que necesite avanzar más.

ChatGPT pregunta si desea crear hojas de cálculo, imágenes, mapas mentales y más. A menudo, estas sugerencias serán cosas en las que no pensó o hubiera necesitado pasar más tiempo trabajando manualmente.

Chatgpt ofreciendo sugerencias en la aplicación

Cuando se usa investigaciones profundas, ChatGPT a menudo hace preguntas de seguimiento para asegurarse de que tenga toda la información necesaria. Puede decirle a GPT-4O que deje de ofrecer sugerencias si cree que son demasiado, pero tener esta característica de forma predeterminada es excelente para el pensamiento creativo.

3

Mejor memorización

Es posible que deba iniciar diferentes conversaciones en ChatGPT por numerosas razones. Quizás desee organizar sus pensamientos de manera más efectiva, o tal vez haya alcanzado el límite de conversación máximo.

De todos modos, no necesita preocuparse por que la aplicación olvide todo lo que le ha dicho. El software puede leer y extraer cualquier información relevante para informar mejor sus respuestas. Incluso después de eliminar ciertos recuerdos, descubrí que la herramienta es capaz de comprender el contexto sin que yo necesite refinar mi aviso.

Debido a que ChatGPT puede recordar lo que le dice de manera más efectiva, recibirá respuestas mucho mejores que antes. Vale la pena pagar el precio mensual por más.

2

Uso no inglés mejorado

Si bien ChatGPT ha hecho avances significativos en sus ofertas en inglés, no siempre ha funcionado tan bien en otros idiomas. Pero con GPT-4O, es mucho mejor a este respecto.

Además del inglés, a veces uso GPT-4O en danés. Si bien todavía no está en el mismo nivel que el inglés, la herramienta es mejor para ayudarme a memorizar y desarrollar las respuestas que quiero.

Podría usar alguna mejora en la generación de imágenes, pero espero que eso cambie a largo plazo. Los idiomas con caracteres especiales probablemente tomarán la herramienta más tiempo para aprender.

1

Mejor modo de voz

Además de las mejoras basadas en texto, el modo de voz de ChatGPT ha hecho grandes pasos desde los primeros días de GPT-4O. Las conversaciones fluyen mejor, y aunque aún puedes decir que estás hablando con un bot, se siente más humano.

ChatGPT incluso presentó el modo Monday, una nueva voz, en abril de 2025, para expandir sus ofertas. Además de pedir consejo, puede usar la herramienta para la preparación de la entrevista, participar en algunas bromas y mucho más.

Dado que sus chats se transcribirán más adelante, vale la pena experimentar con el modo de voz.

ChatGPT Plus ofrece más beneficios de los que inicialmente puede conocer a la vista, y las mejoras significativas para GPT-4O son una de ellas. La versión gratuita de ChatGPT es adecuada para conversaciones básicas, pero se perderá si no actualiza.

Noticias

Cómo analizar toda su biblioteca de Amazon con ChatGPT, y qué puede aprender

Published

19 horas ago

2 mayo, 2025

Sergio Villanueva

Miragec/Getty Images

¿Alguna vez has querido una lista completa de todos los libros que compraste en Amazon? ¿Quieres saber cuáles son los libros físicos, cuáles son los libros electrónicos Kindle y cuáles son los libros audibles? ¿Desea cortar y darle la colección de libros de Amazon por género, fecha comprada o autor?

Mi esposa lo hizo. Ella tiene miles de libros de Kindle y probablemente tantos libros audibles. Ella ha sido una ávida lectora desde que era niña, y su colección de libros, tanto física como virtual, es un orgullo y una alegría.

También: cómo transformar su antiguo y obsoleto Kindle en el mejor lector de código abierto

Ella también es muy analítica. Hace unos meses, cuando estábamos guardando su colección Kindle para descargar en su computadora antes de que ocurriera la restricción de Amazon, se dio cuenta de que quería saber más sobre los metadatos de su colección. Ella quería formas fáciles de encontrar grupos de libros y comprender lo que tenía.

¿Quieres más consejos de IA? Regístrese para nuestro Boletín de Tech Today!

La extensión de la lista de descargas de la lista de libros

Entonces ella se dirigió al Google e hizo un montón de búsqueda. Su búsqueda la llevó a la página de extensión de Chrome del descargador de la lista de libros de Amazon/Kindle, que, sorprendentemente, es un descargador de la lista de libros Kindle de Amazon.

Decidí probarlo también. ¿Por qué no? Siempre tengo curiosidad sobre lo que sucede dentro de la máquina Gewirtz.

extensión de descarga — Captura de pantalla de David Gewirtz/Zdnet

Puede instalarlo y le dará una breve lista de sus activos de Amazon como demostración. Pero si desea desbloquear toda la potencia de esta pequeña herramienta ingeniosa, tendrá que poner en cuenta los seis virtuales George Washingtons. Sí, por $ 6 por usos ilimitados, es una inversión que vale la pena. Siempre es bueno apoyar a los programadores innovadores.

También: Las mejores tabletas de lectura: experto probado y recomendado

Instalación de la extensión solicita la lista habitual de aprobaciones de miedo. Mi consejo es deshabilitar esto cuando haya terminado de usarlo, y solo habilitarlo por las pocas veces que va a descargar una lista completa.

aprobación — Captura de pantalla de David Gewirtz/Zdnet

A continuación, haga clic en el icono de la pieza del rompecabezas en su barra de herramientas Chrome, luego haga clic en el pin para fijar el descargador a su barra de herramientas.

Verá un pequeño icono, y cuando haga clic en él, obtendrá un menú desplegable similar a este.

Captura de pantalla de David Gewirtz/Zdnet

Si hace clic en el botón Obtener libros, recibirá instrucciones sobre dónde necesita señalar su navegador.

punto — Captura de pantalla de David Gewirtz/Zdnet

Puede ejecutar esta extensión en dos páginas específicas de Amazon. Si lo ejecuta en la primera página que se muestra, obtendrá solo datos básicos, incluidos ISBN/ASIN, URL, tipo, origen, título y autor (s). El origen parece estar donde se adquirió el libro, pero para mí todas las listas de registros “Compra”.

También: La nueva función de resumen de IA de Kindle te ayuda a ponerte al día – cómo probarlo

Le recomiendo que elija la segunda URL, porque esa genera una hoja de cálculo con una tonelada más información interesante. Llegaremos a eso en unos minutos, pero primero hagamos el proceso de descarga y luego pasemos a manipular los datos.

Si compra la extensión, querrá poner su número de serie en el campo de código. No estoy completamente seguro de por qué los usos de los usos restantes “-4/nulo”, pero no parece afectar el rendimiento.

Asegúrate de que estés en https://www.amazon.com/yourbooks. Luego haga clic en el botón Obtener libros. Tenga en cuenta que no pasará nada si hace clic nuevamente. Simplemente desplácese un poco el menú desplegable y verá este pequeño indicador de progreso reconfortante.

progreso — Captura de pantalla de David Gewirtz/Zdnet

Sabrá que ha terminado cuando obtiene un diálogo de descarga de archivo. Dígale al descargador dónde desea su hoja de cálculo, y ya habrá terminado con esta fase.

Mirando la hoja de cálculo

Resulta que hay una tonelada de información en esta hoja de cálculo.

Los datos incluyen los siguientes campos:

ISBN/ASIN: Esta es la identificación de Amazon para el libro.
Enlace: Enlace a la página de ventas para el libro.
Fecha adquirida: Cuando lo compraste.
RelationUbtype: Muestra si lo compró, lo está compartiendo, es parte de la Biblioteca de préstamos del propietario de Kindle (Koll), y posiblemente más.
Tipo de relación: Para mí, cada artículo figuraba como “propietario”.
Formato: El formato del artículo; Se veremos más en esto más tarde.
Título: El título del libro.
Páginas: El número de páginas.
Longitud de escucha: Para los libros audibles.
Géneros: El género del artículo.
Subgéneros: Esto no tenía datos para mí.
Posición de la serie: Si un libro es parte de una serie, qué libro es en esa serie.
Serie: Serie de libros nombrado.
(Primero) Autor: El nombre del autor principal.
Todos los autores: Todos los autores enumerados para el artículo.

Puedes ver cómo esto podría ser interesante. Puede hacer mucho con Excel y sus herramientas de análisis de datos.

Pensé en usar el copiloto de Microsoft dentro de Excel para cortarlo, pero luego eché un vistazo al precio. Gasto $ 99 por año para la familia Microsoft 365 para todas las aplicaciones y cinco usuarios. Pero solo para usar la IA en Excel, tendría que gastar $ 20 por mes, $ 240 adicionales por año para una sola característica agregada. Eso es dos veces y media el costo de toda la suite de la oficina. Lo siento, pero eso no está bien.

También: Cómo usar chatgpt para resumir un libro, artículo o trabajo de investigación

Pero, de nuevo, hay chatgpt. Gasto $ 20 por mes para la cuenta PLUS, pero ChatGPT proporciona un gran valor. Sin mencionar que mi trabajo implica escribir sobre él todos los días.

Entonces, alimentemos la hoja de cálculo para chatgpt y veamos qué magia puede producir.

Análisis de metadatos de Amazon con chatgpt

Comencemos con una pista rápida de chatgpt. ChatGPT se confunde mucho cuando la fila superior de una hoja de cálculo no contiene los nombres de los campos. Puede Cajole Chatgpt para prestar atención a la fila correcta diciéndole el primer valor, pero he encontrado que las cosas van mucho más fáciles si solo corta cualquier línea superior innecesaria y presenta el chatgpt con los nombres de los encabezados como la primera fila.

encabezado — Captura de pantalla de David Gewirtz/Zdnet

Y eso es lo que hice. Luego procedí a cargar el archivo de hoja de cálculo no modificado en lugar del archivo modificado, confundiéndolo. Como uno lo hace. Comencé una nueva sesión con ChatGPT y cargué el archivo correcto.

Además: ¿Chatgpt Plus vale sus $ 20? Así es como se compara con los planes gratuitos y profesionales

Comencé a jugar con el campo de formato. Le dije: “Tabule el campo de formato. Muéstrame cuántos de cada uno hay en el archivo. Hazme un gráfico de pastel”. Recibí un bonito gráfico de pasteles, pero fue un poco desordenado.

Le pedí que lo ordenara un poco al indicar: “Use etiquetas, pero dame una leyenda para cualquier cosa por debajo del 2%”. Eso resultó dar como resultado un gráfico muy viable.

Como se esperaba, la mayor parte de mis lecturas están en Kindle. Pero no me di cuenta de que tenía tantos libros en rústica como en audiolibros. Fresco.

También: 7 razones por las que los Kindles siguen siendo una gran compra, incluso sin descargas.

A continuación, llegamos al área del que tenía más curiosidad: los géneros. Instruí ChatGPT: “Tabule el campo Géneros. Muéstrame cuántos de cada uno está en el archivo. Dibuja un gráfico circular que represente el género. Use etiquetas, pero dame una leyenda para cualquier cosa por debajo del 2%”. Los resultados fueron interesantes.

géneros.png — Captura de pantalla de David Gewirtz/Zdnet

Fue no Lo que esperaba. Primero, habría jurado que tenía mucho más ciencia ficción que misterio o literatura. Pero aparentemente, compré muchos más misterios. La porción de adultos jóvenes tiene sentido. Hay una serie de grandes series de libros, como Tom Swift y muchos libros sobre steampunk y dirigibles que están dirigidos a lectores más jóvenes. Los disfruto.

También: ¿Quieres libros electrónicos gratis? Estos 10 sitios ofrecen miles de opciones

No tengo idea de cómo el 3.4% podría ser romance. Es posible que algún libro que pareciera interesante estuviera en esa categoría, mi esposa compró algo en mi cuenta, o lo descargué de una promoción de forma gratuita en mi fase de bit piggy. ¿Quién sabe? Aún así, es informativo.

Hay más información que pude sacar de esos datos con ChatGPT. Me preguntó: “¿Le gustaría esto visualizado o agrupado por tema o categoría?” Mi respuesta fue sí, y recuperé esto.

ficción.png — Captura de pantalla de David Gewirtz/Zdnet

Quería ver si ChatGPT podría darme una versión diferente de mi lista de libros basada en los títulos en sí, así que pregunté: “Basado en los títulos de los libros, muéstrame una tabla de los diez temas más populares”. Recibí esto.

También: Cómo agregar archivos EPUB, MOBI y PDF a su Kindle: no se requiere convertir

Extrañamente, la ciencia o la ciencia ficción no aparecen en eso, aunque la ciencia ficción a menudo se agrupa en las categorías de thriller o aventura. El tiempo tiene sentido porque me encantan las historias de viajes en el tiempo.

Y nuevamente estoy sorprendido por la prominencia de Mystery en esta clasificación. Si combinas misterio, misterios, asesinato y acogedor, obtenemos el 56% de mis lecturas están relacionadas con el misterio. Pero no tenía idea de que tenía tantos. Hubiera pensado que mis libros de Star Trek habrían sofocado las otras categorías.

También: cómo convertir fácilmente los archivos EPUB en formato Kindle en minutos

Finalmente, le pregunté a ChatGPT: “Mirando la hoja de cálculo, ¿qué otra información o ideas interesantes puedes aparecer para mí?” Esto fue divertido.

perspectivas — Captura de pantalla de David Gewirtz/Zdnet

Es un poco interesante que mi primer libro de Amazon Book data de 1998, hace casi 30 años. También es interesante, ya que leí mis libros de Kindle todos los días, que mi última compra fue hace casi dos años. Aparentemente, he estado trabajando en mi colección (lo cual es, en realidad, algo bueno).

Así que ahí tienes: una forma de cavar todas tus lecturas de Amazon y comprender un poco más sobre lo que te gusta.

También: Cómo usar el análisis de datos avanzado de ChatGPT para crear cuadros y tablas de calidad

¿Qué pasa contigo? ¿Alguna vez has tomado una inmersión profunda en tu colección de libros de Amazon? ¿Te sorprendió la cantidad de géneros o formatos que has acumulado a lo largo de los años? ¿Herramientas como este exportador de metadatos te hacen repensar tus hábitos de lectura o desencadenar nuevas ideas para organizar tu biblioteca digital? Y si ha intentado chatgpt o herramientas similares para analizar sus propios datos, ¿cómo fue? Háganos saber en los comentarios a continuación.

Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.

Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, en bluesky en @davidgewirtz.com, y en YouTube en youtube.com/davidgewirtztv.