Connect with us

Noticias

Gemini 2.5 Pro está aquí, y cambia el juego AI (nuevamente)

Published

on

Google ha presentado Gemini 2.5 Pro, llamándolo “Modelo de IA más inteligente” hasta la fecha. Este último modelo de lenguaje grande, desarrollado por el equipo de Google Deepmind, se describe como un “modelo de pensamiento” diseñado para abordar problemas complejos razonando a través de pasos internamente antes de responder. Los primeros puntos de referencia respaldan la confianza de Google: Gemini 2.5 Pro (un primer lanzamiento experimental de la serie 2.5) debutan en el número 1 en la tabla de clasificación Lmarena de asistentes de IA por un margen significativo, y lidera muchas pruebas estándar para la codificación, las matemáticas y las tareas científicas.

Las nuevas capacidades y características clave en Gemini 2.5 Pro incluyen:

  • Razonamiento de la cadena de pensamiento: A diferencia de los chatbots más sencillos, Gemini 2.5 Pro explícitamente “piensa” a través de un problema internamente. Esto lleva a respuestas más lógicas y precisas sobre consultas difíciles, desde rompecabezas lógicos difíciles hasta tareas de planificación complejas.
  • Rendimiento de última generación: Google informa que 2.5 Pro supera los últimos modelos de OpenAI y Anthrope en muchos puntos de referencia. Por ejemplo, estableció nuevos máximos en las pruebas de razonamiento difíciles como el último examen de la humanidad (puntuando 18.8% frente a 14% para el modelo de OpenAI y 8.9% para Anthrope’s), y lidera en varios desafíos de matemáticas y ciencias sin necesidad de trucos costosos como la votación en conjunto.
  • Habilidades de codificación avanzada: El modelo muestra un gran salto en la capacidad de codificación sobre su predecesor. Se destaca en la generación y edición del código para aplicaciones web e incluso scripts autónomos de “agente”. En el punto de referencia de codificación SWE-Bench, Gemini 2.5 Pro alcanzó una tasa de éxito del 63.8%, muy por delante de los resultados de OpenAi, aunque todavía un poco detrás del modelo especializado de “soneto” “soneto” de Anthrope (70.3%).
  • Comprensión multimodal: Al igual que los modelos Gemini anteriores, 2.5 Pro es multimodal nativo: puede aceptar y razonar sobre texto, imágenes, audio, incluso videos e entrada de código en una conversación. Esta versatilidad significa que podría describir una imagen, depurar un programa y analizar una hoja de cálculo, todo dentro de una sola sesión.
  • Ventana de contexto masivo: Quizás lo más impresionante, Gemini 2.5 Pro puede manejar hasta 1 millón de tokens de contexto (con una actualización de tokens de 2 millones en el horizonte). En términos prácticos, eso significa que puede ingerir cientos de páginas de textos o repositorios de código enteros a la vez sin perder el seguimiento de los detalles. Esta larga memoria supera enormemente lo que ofrecen la mayoría de los otros modelos de IA, permitiendo que Gemini mantenga una comprensión detallada de documentos o discusiones muy grandes.

Según Google, estos avances provienen de un modelo base significativamente mejorado combinado con técnicas mejoradas después de la capacitación. En particular, Google también retira la marca separada de “pensamiento flash” que utilizó para Gemini 2.0; Con 2.5, las capacidades de razonamiento ahora están incorporadas de forma predeterminada en todos los modelos futuros. Para los usuarios, eso significa que incluso las interacciones generales con Gemini se beneficiarán de este nivel más profundo de “pensar” debajo del capó.

Implicaciones para la automatización y diseño

Más allá del zumbido de los puntos de referencia y la competencia, la importancia real de Gemini 2.5 Pro puede estar en lo que permite para los usuarios finales e industrias. El fuerte desempeño del modelo en las tareas de codificación y razonamiento no se trata solo de resolver acertijos para alardear de los derechos: insinúa nuevas posibilidades para la automatización del lugar de trabajo, el desarrollo de software e incluso el diseño creativo.

Tome la codificación, por ejemplo. Con la capacidad de generar código de trabajo a partir de un mensaje simple, Gemini 2.5 Pro puede actuar como un multiplicador de proyecto para los desarrolladores. Un solo ingeniero podría potencialmente prototipos de una aplicación web o analizar una base de código completa con asistencia de IA que maneja gran parte del trabajo de gruñidos. En una demostración de Google, el modelo creó un videojuego básico desde cero dada solo una descripción de una oración. Esto sugiere un futuro en el que los no programadores describirán una idea y obtendrán una aplicación en ejecución en respuesta (“codificación de vibos”), bajando drásticamente la barrera para la creación de software.

Incluso para desarrolladores experimentados, tener una IA que pueda comprender y modificar repositorios de código grandes (gracias a ese contexto de 1 m) significa una depuración más rápida, revisiones de código y refactorización. Nos estamos moviendo hacia una era de programadores de pares de IA que pueden mantener el “Gran imagen” de un proyecto complejo en su cabeza, por lo que no tiene que recordarles el contexto con cada aviso.

Las habilidades de razonamiento avanzado de Gemini 2.5 también juegan en la automatización del trabajo de conocimiento. Los primeros usuarios han intentado alimentarse en largos contratos y pedirle al modelo que extraiga cláusulas clave o resume puntos, con resultados prometedores. Imagine automatizar partes de la revisión legal, la investigación de diligencia debida o el análisis financiero al dejar que la IA pase a través de cientos de páginas de documentos y retire lo que importa, tareas que actualmente comen innumerables horas humanas.

La habilidad multimodal de Gemini significa que incluso podría analizar una mezcla de textos, hojas de cálculo y diagramas juntos, dando un resumen coherente. Este tipo de IA podría convertirse en un asistente invaluable para profesionales en derecho, medicina, ingeniería o cualquier campo ahogamiento en datos y documentación.

Para los campos creativos y el diseño de productos, modelos como Gemini 2.5 Pro también abren posibilidades intrigantes. Pueden servir como socios de lluvia de ideas, por ejemplo, que generan conceptos de diseño o copia de marketing mientras razonan sobre los requisitos, o como prototipos rápidos que transforman una idea aproximada en un borrador tangible. El énfasis de Google en el comportamiento de la agente (la capacidad del modelo para usar herramientas y realizar planes de varios pasos de forma autónoma) sugerencias de que las versiones futuras podrían integrarse directamente con el software.

Uno podría imaginar una IA de diseño que no solo sugiere ideas, sino que también navega por el software de diseño o escribe código para implementar esas ideas, todas guiadas por instrucciones humanas de alto nivel. Tales capacidades difuminan la línea entre “Thinker” y “Doer” en el reino de AI, y Gemini 2.5 es un paso en esa dirección, una IA que puede conceptualizar soluciones y ejecutarlas en varios dominios.

Sin embargo, estos avances también plantean preguntas importantes. A medida que AI asume tareas más complejas, ¿cómo nos aseguramos de que comprenda los matices y los límites éticos (por ejemplo, al decidir qué cláusulas de contrato son sensibles o cómo equilibrar los aspectos creativos frente a los aspectos prácticos en el diseño)? Google y otros necesitarán construir barandillas robustas, y los usuarios necesitarán aprender nuevos conjuntos de habilidades, lo que solicita y supervisará la IA, a medida que estas herramientas se convierten en compañeros de trabajo.

No obstante, la trayectoria es clara: modelos como Gemini 2.5 Pro están empujando la IA más profundamente en roles que anteriormente requerían inteligencia humana y creatividad. Las implicaciones para la productividad y la innovación son enormes, y es probable que veamos efectos dominantes en cómo se construyen los productos y cómo se realiza el trabajo en muchas industrias.

Géminis 2.5 y el nuevo campo AI

Con Gemini 2.5 Pro, Google está apostando un reclamo a la vanguardia de la carrera de IA, y enviando un mensaje a sus rivales. Hace solo un par de años, la narración era que la IA de Google (piense en las primeras iteraciones de Bard) estaba rezagada detrás de Chatgpt de OpenAi y los movimientos agresivos de Microsoft. Ahora, al organizar el talento combinado de Google Research y DeepMind, la compañía ha entregado un modelo que puede competir legítimamente por el título del mejor asistente de IA en el planeta.

Esto es un buen augurio para el posicionamiento a largo plazo de Google. Los modelos de IA se consideran cada vez más como plataformas centrales (al igual que los sistemas operativos o los servicios en la nube), y tener un modelo de nivel superior le da a Google una mano fuerte para jugar en todo, desde ofertas de la nube empresarial (Google Cloud/Vertex AI) hasta servicios de consumo como búsqueda, aplicaciones de productividad y Android. A la larga, podemos esperar que la familia Gemini se integre en muchos productos de Google, potencialmente sobrealimentando el Asistente de Google, mejorando las aplicaciones de Google Workspace con características más inteligentes y mejorando la búsqueda con habilidades más conversacionales y conscientes del contexto.

El lanzamiento de Gemini 2.5 Pro también destaca cuán competitivo se ha vuelto el panorama de IA. Operai, antrópico y otros jugadores como Meta y Startups emergentes están iterando rápidamente en sus modelos. Cada salto de una empresa, ya sea una ventana de contexto más amplia, una nueva forma de integrar herramientas o una nueva técnica de seguridad, es respondida rápidamente por otros. El movimiento de Google para incrustar el razonamiento en todos sus modelos es estratégico, asegurando que no se quede atrás en la “inteligencia” de su IA. Mientras tanto, la estrategia de Anthrope de dar a los usuarios más control (como se ve con la profundidad de razonamiento ajustable de Claude 3.7) y los refinamientos continuos de OpenAI a GPT-4.X mantienen la presión sobre.

Para los usuarios finales y los desarrolladores, esta competencia es en gran medida positiva: significa mejores sistemas de IA que llegan más rápido y más opciones en el mercado. Estamos viendo un ecosistema de IA en el que ninguna empresa tiene el monopolio de la innovación, y esa dinámica empuja a cada uno a sobresalir, al igual que los primeros días de la computadora personal o las guerras de teléfonos inteligentes.

En este contexto, la versión de Gemini 2.5 Pro es más que una actualización de productos de Google: es una declaración de intención. Se indica que Google pretende no ser solo un seguidor rápido sino un líder en la nueva era de la IA. La compañía está aprovechando su infraestructura informática masiva (necesaria para entrenar modelos con más de 1 millones de contextos tokens) y vastas recursos de datos para superar los límites que pocos otros pueden. Al mismo tiempo, el enfoque de Google (implementando modelos experimentales para usuarios de confianza, integrando AI en su ecosistema cuidadosamente) muestra un deseo de equilibrar la ambición con la responsabilidad y la practicidad.

Como Koray Kavukcuoglu, CTO de Google Deepmind, lo expresó en el anuncio, el objetivo es hacer que la IA sea más útil y capaz al mejorarlo a un ritmo rápido.

Para los observadores de la industria, Gemini 2.5 Pro es un hito que marca qué tan lejos ha llegado la IA a principios de 2025, y un indicio de hacia dónde va. El bar de “estado del arte” sigue aumentando: hoy es razonamiento y destreza multimodal, mañana podría ser algo así como la resolución de problemas o la autonomía aún más general. El último modelo de Google muestra que la compañía no solo está en la carrera, sino que tiene la intención de dar forma a su resultado. Si Gemini 2.5 tiene algo que ver, la próxima generación de modelos de IA estará aún más integrada en nuestro trabajo y vidas, lo que nos lleva a volver a imaginar cómo usamos la inteligencia de la máquina.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

El nuevo generador de imágenes de Chatgpt rompió mis expectativas, y ahora es gratis intentarlo

Published

on

Aviso: ¿Puede generar una imagen colorida realista de perro con un traje en la calle en una relación 16: 9?

Captura de pantalla de Sabrina Ortiz/Zdnet

OpenAi puede haber iniciado la moda de la generación de texto a imagen con su modelo Dall-E, pero desde esos días de gloria anteriores, la oferta de la compañía de IA ha sido lapada por modelos de imagen mucho más capaces. Como resultado, cuando Operai lanzó su último y mejor modelo de generación de imágenes GPT-4O, me escéptico. Después de probarlo, he cambiado de opinión por completo.

Empezando

Cuando Dall-E se lanzó por primera vez, vivió en su sitio web independiente; Desde entonces, se ha movido a Chatgpt. La medida llegó con muchos beneficios, incluida la capacidad de pedirle al chatbot Ai una imagen que desee en la misma interfaz donde ya está charlando sobre otra cosa, eliminando así la necesidad de un cambio de contexto constante.

Con el lanzamiento de la generación de imágenes GPT-4O, OpenAI mantuvo este formato conveniente, cambiando el generador de imagen predeterminado de Dall-E a GPT-4O para suscriptores pagados. Como resultado, fue muy fácil comenzar a crear nuevas imágenes desde mi cuenta ChatGPT Plus. Todo lo que tenía que hacer era ingresar el mensaje de lo que quería ver, y luego los generó. Los usuarios también pueden acceder a él desde la interfaz Sora.

También: Cómo usar Sora de OpenAi para crear impresionantes videos generados por AI

También puede generar imágenes si es un usuario gratuito. En el lanzamiento, se anunció que el modelo venía a todos los usuarios, incluidos los gratuitos, pero luego el CEO de OpenAi, Sam Altman, anunció un día después que el despliegue al nivel gratuito ahora se “retrasaría por un tiempo”, solo para que esté disponible para los usuarios gratuitos nuevamente una semana después.

Sin embargo, si no está impresionado cuando lo intenta en la versión gratuita, es porque el único método que activa el uso de GPT-4O es escribir en el atajo “/Crear imagen”. Si simplemente escribe una solicitud, como “Crear una imagen de XYZ”, será predeterminado al modelo Dall-E, que hace que las fotos significativamente de menor calidad. Operai no indica explícitamente los límites, pero después de generar tres imágenes de mi cuenta gratuita, llego a mi límite diario. Por lo tanto, ChatGPT Plus sigue siendo una buena opción para un mayor acceso a la generación de imágenes.

Las imágenes

En el momento en que has estado esperando: las imágenes. Después de insertar una solicitud, el IA genera la generación en menos de un minuto. El proceso lleva un poco más de lo que solía, pero las imágenes valen la pena, entregando muchos detalles, textura, realismo e incluso precisión del texto. En lugar de describirlo, incluiré ejemplos a continuación para que pueda verlo usted mismo.

Inmediato: ¿Puedes generar una imagen realista de un camaleón, de cerca, filmado como si estuviera en National Geographic en la relación 16: 9?

chatgpt-image-lizard

Sabrina Ortiz/Zdnet a través de chatgpt

Inmediato: ¿Puede generar una imagen de una computadora portátil abierta en un escritorio que dice: “Este modelo es tan bueno que incluso puede obtener texto y manos correctos, que generalmente son desafíos importantes para los modelos de IA”, con las manos escribiendo en un teclado en una relación 16: 9?

chatgpt-laptop-withs

Sabrina Ortiz/Zdnet a través de chatgpt

Inmediato: ¿Puedes generar una foto realista de un primer plano de una mujer en una multitud en Times Square mirando la cámara y sonriendo, con la calidad de una tomada en una DSLR?

chatgpt-woman sonriendo

Sabrina Ortiz/Zdnet a través de chatgpt

Como se vio anteriormente, el generador de imágenes hace un gran trabajo al adherirse a la solicitud y entregar imágenes realistas de alta calidad. Sin embargo, al probar un modelo de IA, una de las verdaderas métricas de rendimiento es cómo se compara con los competidores en el mercado. Para darle un buen indicador de esto, lo hice generar el mismo aviso que probé en todos los principales generadores de imágenes de IA, incluidos MidJourney, Imagen 3 de Google, Adobe Firefly y más.

Adjunto la interpretación de GPT-4O a continuación. Puede ver cómo le va a todos los otros generadores de imágenes de IA en este artículo, incluida la interpretación de Dall-E, que claramente está muy por detrás de lo que el nuevo modelo puede hacer.

Inmediato: ¿Puedes generar una imagen de un colibrí vibrante y realista encaramado en un árbol?

chatgpt-image-hummingbird

Sabrina Ortiz/Zdnet a través de chatgpt

Otras características notables

Aunque la calidad de las imágenes es quizás una de las mayores victorias del modelo, también hay otros beneficios. Una de las más grandes es que vive en la interfaz del chatbot, lo que facilita el ajuste de las generaciones con simples indicaciones de lenguaje natural. Además, debido a que el chatbot tiene el contexto de lo que acabas de preguntar, puede considerar eso al construir la imagen.

Por ejemplo, si está charlando con él sobre organizar una fiesta de cumpleaños, es posible que pueda decir: “¿Puede crear ahora una invitación que tenga la información anterior?” en lugar de tener que volver a escribir. Por ejemplo, comencé a chatear con ChatGPT sobre lanzar un inauguración de la casa, y al pedirle que creara una invitación, no tuve que repetir la información que proporcioné anteriormente.

Invitación de fiesta de inauguración de la casa: chatgpt

Captura de pantalla de Sabrina Ortiz/Zdnet

También puede cargar imágenes de referencia y luego pedirle a ChatGPT que cree una versión diferente o las use como elementos de una nueva. Por ejemplo, puede ingresarlo como una selfie y generarla en estilo de anime, como se ve en la nueva publicación X de Altman.

Todas estas características de personalización lo convierten en una oferta realmente sólida para los creativos, que también pueden solicitar que se presente en un fondo transparente o incorpore guías de estilo de marca, como códigos hexagonales o logotipos.

Hablando de Altman, pude generar una imagen de él con un sombrero de fiesta. Podría hacerlo porque el nuevo modelo tiene salvaguardas mucho más sueltas, destinadas a permitir a los usuarios inclinarse en su libertad creativa. La publicación de blog que anunció el modelo señaló que limita lo que se puede crear cuando las personas reales están en el contexto, incluidas “salvaguardas particularmente robustas sobre la desnudez y la violencia gráfica”.

chatgpt-image-sam-altman

Sabrina Ortiz/Zdnet a través de chatgpt

No puedo decir si hay un caso de uso práctico para esta característica, pero es un cambio notable que necesitaba probar por mí mismo. Cuando intenté crear una imagen de Mickey Mouse, dijo que no podría deberse a las implicaciones de los derechos de autor, por lo que parece que no todas las figuras públicas son un juego justo.

En general

En general, el generador de imágenes GPT-4O es una gran victoria sobre los modelos Dall-E y quizás entre los mejores de los muchos que he probado. ¿Vale la pena los $ 20 por mes? Si solo está interesado en la generación de imágenes de alta calidad, todavía hay versiones gratuitas que puede explorar que son realmente capaces, como Adobe Firefly o Google’s Imagen 3.

También: los mejores generadores de imágenes de IA: probado y revisado

Dicho esto, las funciones actualizadas de generación de imágenes se están implementando ahora, y todos los usuarios, incluidos los gratuitos, pueden acceder a ellas. Sin embargo, los usuarios gratuitos deben escribir el atajo “/Crear imagen”, o de lo contrario el sistema predeterminado al modelo Dall-E de menor calidad.

Si es un usuario de ChatGPT frecuente, la actualización a ChatGPT Plus se vuelve significativamente más atractiva. Tendrá acceso a todas las últimas y mejores funciones de chatbot de Openai, así como una generación de imágenes y videos de alta calidad, todo por $ 20 al mes, lo que no es un mal negocio, especialmente teniendo en cuenta otras ofertas en el mercado. Por ejemplo, la suscripción de MidJourney comienza en $ 10 por mes y solo ofrece generación de imágenes.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Noticias

‘Chatgpt es mi amigo’. El estudio Openai y MIT revela quién es más vulnerable al archivo adjunto de IA

Published

on

Cuando Sam Altman y su equipo en OpenAi desataron el chatgpt en el mundo a fines de 2022, probablemente no anticiparon que algunos usuarios comenzarían a considerar el chatbot de AI como un amigo cercano. Sin embargo, eso es exactamente lo que está sucediendo, según una nueva investigación realizada conjuntamente por Operai y MIT Media Lab.

En un estudio innovador que examina lo que los investigadores llaman “uso afectivo”, los científicos han descubierto patrones que pueden remodelar la forma en que pensamos sobre las relaciones de IA humana. La línea entre la herramienta y los desenflores de compañía diariamente.

“Queremos entender cómo las personas usan modelos como CHATGPT y cómo estos modelos a su vez pueden afectarlos”, explican los investigadores en el MIT Media Lab y el informe de OpenAI. Lo que encontraron sugiere que estamos entrando en territorio psicológico desconocido.

Chatgpt digital gemates: el club de 30 minutos

A pesar de servir a más de 400 millones de usuarios semanales, solo un pequeño segmento de usuarios de ChatGPT desarrollan conexiones emocionales significativas con la IA. A diferencia de las aplicaciones complementarias dedicadas como replika y personaje .i diseñó explícitamente para fomentar las relaciones, ChatGPT se construyó principalmente como una herramienta de productividad.

Sin embargo, algunos usuarios no pueden evitar antropomorfizar el modelo de lenguaje sofisticado detrás de la interfaz de chat. Esta minoría emocionalmente comprometida consiste principalmente en usuarios pesados, particularmente aquellos que utilizan la función de interacción de voz. Estos buscadores de compañeros digitales generalmente pasan alrededor de 30 minutos al día con ChatGPT. El estudio encontró que estos usuarios eran “significativamente más propensos a estar de acuerdo con declaraciones como ‘Considero que ChatGPT es un amigo'”, según la investigación.

Esto no debería sorprender a nadie que haya estudiado la interacción de la computadora humana. Hemos estado antropomorfizando tecnología desde que surgieron los primeros chatbots en la década de 1960. Pero la sofisticación de los LLM de hoy lleva esta tendencia a niveles sin precedentes.

La paradoja de la voz: breve alegría, blues extendido

Uno de los hallazgos más convincentes del estudio implica el modo de voz de ChatGPT, que altera fundamentalmente cómo los usuarios experimentan interacciones. La prueba controlada del MIT Media Lab con casi 1,000 participantes reveló un patrón contraintuitivo. Las interacciones de voz produjeron mejores resultados de bienestar durante sesiones breves, pero se correlacionaron con peores resultados durante el uso diario extendido.

“Los modos de voz se asociaron con un mejor bienestar cuando se usaban brevemente, pero peores resultados con uso diario prolongado”, señalan los investigadores en su informe. Esto sugiere un efecto psicológico de Valle extraño que emerge específicamente con interacciones de voz extendidas.

Aún más preocupante, los participantes que interactuaron con la voz de ChatGPT establecida en un género diferente al suyo informaron niveles significativamente más altos de soledad y dependencia emocional del chatbot mediante la conclusión del estudio. Este hallazgo plantea preguntas espinosas sobre la dinámica de género en las interacciones de IA humana que los diseñadores deben abordar.

Ai sí hombres: entrenando humanos por malos hábitos

Las implicaciones se extienden más allá del bienestar individual. Operai señala que la naturaleza “deferencial” de Chatgpt que permite a los usuarios interrumpir y controlar las conversaciones sin consecuencias sociales podría afectar la forma en que las personas interactúan entre sí. Cuando las personas se acostumbran a dominar las conversaciones con asistentes de IA sumisos, pueden llevar inconscientemente estas expectativas a las interacciones humanas.

Diferencias de género: un hallazgo inesperado

La investigación descubrió variaciones de género notables en respuesta a ChatGPT. Las participantes femeninas que usaron ChatGPT regularmente durante el período de estudio de cuatro semanas mostraron una disminución de la socialización con otros humanos en comparación con sus homólogos masculinos. Esto plantea preguntas importantes sobre si los compañeros de IA podrían afectar diferentes grupos demográficos de maneras sistemáticamente diferentes.

Detectives de emociones: el desafío de medir los sentimientos

Los investigadores reconocen fácilmente las limitaciones de sus métodos. El estudio de la interacción emocional de IA humana presenta desafíos únicos, como señala Kate Devlin, profesora de IA y Sociedad en King’s College London (no involucrado en el estudio). “En términos de lo que los equipos se propusieron medir, las personas no necesariamente han estado usando ChatGPT de una manera emocional, pero no se puede divorciar de ser un humano de sus interacciones [with technology]”, Dijo a MIT Technology Review.

Jason Phang, un investigador de seguridad de Openai que trabajó en el proyecto, describe su trabajo como “preliminar”, pero enfatiza su importancia: “Mucho de lo que estamos haciendo aquí es preliminar, pero estamos tratando de comenzar la conversación con el campo sobre los tipos de cosas que podemos comenzar a medir y comenzar a pensar sobre cuál es el impacto a largo plazo en los usuarios”.

Los estudios combinaron a gran escala, análisis automatizado de casi 40 millones de interacciones ChatGPT con encuestas de usuarios específicas y un ensayo controlado que involucra a casi 1,000 participantes. Operai planea presentar ambos estudios a revistas revisadas por pares, un movimiento hacia una mayor transparencia científica en una industria a menudo criticada por su opacidad.

Silicon Sweethearts: La ética de la intimidad algorítmica

A medida que integramos cada vez más a los compañeros de IA en nuestra vida cotidiana, estos hallazgos sugieren que estamos deambulando por un complejo territorio psicológico sin un mapa. La pregunta no es solo si los sistemas de IA pueden imitar la conversación humana de manera convincente, sino cómo esa mimetría nos afecta cuando nos comprometemos a diario.

Para los desarrolladores de OpenAI y otros AI, estos estudios representan un reconocimiento importante: la capacidad técnica es solo la mitad de la ecuación. Comprender cómo estos sistemas remodelan el comportamiento humano y el bienestar emocional deben ser igualmente fundamentales para el desarrollo responsable de la IA.

Lo que queda por ver es si las empresas priorizarán el bienestar de los usuarios cuando entra en conflicto con las métricas de participación y los objetivos comerciales. A medida que la IA se vuelve más atractiva emocionalmente, la tentación de explotar estos lazos parasociales para el beneficio comercial solo crecerá.

Mientras tanto, puede valer la pena examinar su propia relación con los chatbots de IA. Si pasas media hora diariamente conversando con Chatgpt y pensando en ello como un amigo, eres parte de una fascinante frontera psicológica. Los investigadores apenas comienzan a comprender las implicaciones.

Continue Reading

Noticias

Las imágenes de estilo Ghibli Studio de Chatgpt muestran su poder creativo, pero plantean nuevos problemas de derechos de autor

Published

on

Las redes sociales se han inundado recientemente con imágenes que parecían pertenecer a una película de Studio Ghibli. Los selfies, las fotos familiares e incluso los memes han sido reimaginados con la paleta suave y pastel característica de la compañía de animación japonesa fundada por Hayao Miyazaki.

Esto siguió a la última actualización de Openai a ChatGPT. La actualización mejoró significativamente las capacidades de generación de imágenes de CHATGPT, lo que permite a los usuarios crear imágenes convincentes de estilo ghibli en solo segundos. Ha sido enormemente popular, tanto así, de hecho, que el sistema se bloqueó debido a la demanda del usuario.

Los sistemas generativos de inteligencia artificial (IA) como ChatGPT se entienden mejor como “motores de estilo”. Y lo que estamos viendo ahora es que estos sistemas ofrecen a los usuarios más precisión y control que nunca.

Pero esto también está planteando preguntas completamente nuevas sobre los derechos de autor y la propiedad creativa.

Cómo el nuevo chatgpt hace imágenes

Los programas generativos de IA funcionan produciendo salidas en respuesta a las indicaciones del usuario, incluidas las indicaciones para crear una imagen.

Generaciones anteriores de generadores de imágenes AI utilizaron modelos de difusión. Estos modelos refinan gradualmente datos aleatorios y ruidosos en una imagen coherente. Pero la última actualización de ChatGPT utiliza lo que se conoce como un “algoritmo autorregresivo”.

Este algoritmo trata las imágenes más como el lenguaje, descomponiéndolas en “tokens”. Así como ChatGPT predice las palabras más probables en una oración, ahora puede predecir diferentes elementos visuales en una imagen por separado.

Esta tokenización permite que el algoritmo separe mejor ciertas características de una imagen, y su relación con las palabras en un aviso. Como resultado, ChatGPT puede crear imágenes con mayor precisión a partir de indicaciones precisas del usuario que las generaciones anteriores de generadores de imágenes. Puede reemplazar o cambiar las características específicas al tiempo que preserva el resto de la imagen, y mejora el tema de larga data de generar texto correcto en las imágenes.

Una ventaja particularmente poderosa de generar imágenes dentro de un modelo de lenguaje grande es la capacidad de recurrir a todo el conocimiento ya codificado en el sistema. Esto significa que los usuarios no necesitan describir todos los aspectos de una imagen con detalles minuciosos. Simplemente pueden referirse a conceptos como Studio Ghibli y la IA entiende la referencia.

La reciente tendencia de Studio Ghibli comenzó con OpenAi en sí, antes de difundirse entre los ingenieros de software de Silcon Valley y luego incluso gobiernos y políticos, incluidos usos aparentemente improbables, como la Casa Blanca, que crea una imagen giblificada de una mujer que llora siendo deportada y el gobierno indio que promueve la narrativa del primer ministro Narendra Modi de una “nueva India”.

Comprender la IA como ‘motores de estilo’

Los sistemas generativos de IA no almacenan información en ningún sentido tradicional. En cambio, codifican texto, hechos o fragmentos de imagen como patrones, o “estilos”, dentro de sus redes neuronales.

Entrenados en grandes cantidades de datos, los modelos de IA aprenden a reconocer patrones en múltiples niveles. Las capas de red inferiores pueden capturar características básicas como relaciones de palabras o texturas visuales. Las capas más altas codifican conceptos o elementos visuales más complejos.

Esto significa que todo (objetos, propiedades, géneros de escritura, voces profesionales) se transforma en estilos. Cuando AI se entera del trabajo de Miyazaki, no almacena marcos reales de Studio Gibli (aunque los generadores de imágenes a veces pueden producir imitaciones cercanas de imágenes de entrada). En cambio, está codificando la “ghibli-ness” como un patrón matemático, un estilo que se puede aplicar a nuevas imágenes.

Lo mismo sucede con los plátanos, los gatos o los correos electrónicos corporativos. La IA aprende “plátano”, “gato” o “correo electrónico corporativo”, patrones que definen lo que hace que algo sea reconocible un plátano, un gato o una comunicación profesional.

La codificación y transferencia de estilos ha sido durante mucho tiempo un objetivo expreso en la IA visual. Ahora tenemos un generador de imágenes que logra esto con una escala y control sin precedentes.

Este enfoque desbloquea posibilidades creativas notables tanto en texto como en imágenes. Si todo es un estilo, entonces estos estilos se pueden combinar y transferir libremente. Es por eso que nos referimos a estos sistemas como “motores de estilo”. Intente crear un sillón al estilo de un gato o en estilo

https://www.youtube.com/watch?v=duwdqsy8ste

La controversia de los derechos de autor: cuando los estilos se convierten en identidad

Si bien la capacidad de trabajar con estilos es lo que hace que la IA generativa sea tan poderosa, también está en el corazón de la creciente controversia. Para muchos artistas, hay algo profundamente inquietante en ver sus enfoques artísticos distintivos reducidos a solo otro “estilo” que cualquiera puede aplicar con un mensaje de texto simple.

Hayao Miyazaki no ha comentado públicamente sobre la tendencia reciente de las personas que usan ChatGPT para generar imágenes en su estilo de animación de fama mundial. Pero él ha sido crítico con la IA anteriormente.

Todo esto también plantea preguntas completamente nuevas sobre los derechos de autor y la propiedad creativa.

Tradicionalmente, la ley de derechos de autor no protege los estilos, solo expresiones específicas. No puedes derechos de autor de un género musical como “SKA” o un movimiento de arte como “Impresionismo”.

Esta limitación existe por una buena razón. Si alguien pudiera monopolizar un estilo completo, sofocaría la expresión creativa para todos los demás.

Pero hay una diferencia entre los estilos generales y los muy distintivos que se vuelven casi sinónimos de la identidad de alguien. Cuando una IA puede generar trabajo “al estilo de Greg Rutkowski”, un artista polaco cuyo nombre se usó en más de 93,000 indicaciones en la difusión estable del generador de imágenes de IA: potencialmente amenaza tanto su sustento como su legado artístico.

Algunos creadores ya han tomado acciones legales.

En un caso presentado a fines de 2022, tres artistas formaron una clase para demandar a múltiples compañías de IA, argumentando que sus generadores de imágenes estaban capacitados en sus trabajos originales sin permiso, y ahora permiten a los usuarios generar trabajos derivados que imitan sus estilos distintivos.

A medida que la tecnología evoluciona más rápido que la ley, el trabajo está en marcha en una nueva legislación para tratar de equilibrar la innovación tecnológica con la protección de las identidades creativas de los artistas.

Cualquiera sea el resultado, estos debates resaltan la naturaleza transformadora de los motores de estilo AI, y la necesidad de considerar tanto su potencial creativo sin explotar como su protección más matizada de estilos artísticos distintivos.

Continue Reading

Trending