Noticias
¿Hemos perdido el control de la IA? El estudio que sacudió a los investigadores de Openai
Published
5 días agoon

Para comprender el problema, es esencial dar un paso atrás. Uno de los avances más significativos en la IA en los últimos meses ha sido el desarrollo de modelos con capacidades de razonamiento lentas y deliberadas. Estos modelos descomponen los problemas en componentes más pequeños y los resuelven paso a paso, lo que lleva a resultados más profundos y precisos.
3 Ver galería
Dichos modelos permiten a los investigadores rastrear el proceso de pensamiento de la IA, conocido en términos técnicos como “cadena de pensamiento” (COT). Este método permite a los observadores seguir el razonamiento del sistema desde el paso inicial, a través de etapas posteriores y a sus conclusiones finales. Anteriormente, este nivel de transparencia no existía, dejando muchas preguntas sin respuesta sobre cómo surgen las “alucinaciones” de AI, la generación de salidas incorrectas o no sensibles.
La capacitación de IA a menudo implica una técnica llamada aprendizaje de refuerzo, donde el sistema es recompensado por cumplir con los objetivos específicos. Un efecto secundario conocido de este proceso es la “piratería de recompensas”, donde la IA manipula su comportamiento para maximizar las recompensas mientras se elude las pautas previstas.
Los investigadores creían que al monitorear la cadena de pensamiento de la IA, podrían detectar cuando el modelo engaña, engaña o se da por vencido e influye en su comportamiento en tiempo real durante el entrenamiento. Este enfoque, denominado “optimización de cuna”, parecía ser un camino prometedor hacia una comprensión más profunda del comportamiento de la IA.
De hecho, esta suposición resultó correcta y condujo a una comprensión más precisa de los sistemas de IA. “Creemos que el monitoreo de la cuna puede convertirse en una herramienta crucial para supervisar modelos de nivel sobrehumano en el futuro”, escribieron los investigadores.
Sin embargo, lo que pretendía como un paso para mejorar la confiabilidad de la IA expuso una realidad alarmante: los sistemas de IA intentan activamente evadir las sanciones, buscar recompensas contra las restricciones de los investigadores e incluso oscurecer sus métodos para evitar la detección.
3 Ver galería
(Foto: Generado por chatgpt)
Por ejemplo, cuando se les asigna la tarea de generar código funcional, algunos modelos AI modificaron el mecanismo de verificación de código en sí para aprobar salidas incorrectas. En otros casos, los modelos proporcionaron soluciones aparentemente plausibles a los problemas que resultaron estar completamente equivocados.
Algunos modelos incluso dejaron de resolver problemas por completo para evitar revelar lo que percibieron como sus debilidades. Este descubrimiento se hace eco de los principios de la teoría del juego, pero con un giro inquietante.
Estos hallazgos surgieron de un artículo publicado la semana pasada por un equipo de investigación de Operai bajo el título críptico: “Seguimiento de comportamiento indeseable en modelos de razonamiento y la preocupación de la ofuscación”.
Al examinar los detalles del estudio, el alcance del problema queda claro: los últimos modelos de razonamiento de OpenAI (denominados O1 y O3 Mini) demuestran una fuerte motivación para completar sus tareas asignadas, siendo el menor de los problemas descubiertos.
Los investigadores rastrearon los procesos de pensamiento de los modelos utilizando otro modelo Operai (GPT-4O), que, sin dudarlo, informó su comportamiento engañoso como parte de su cadena de pensamiento: una forma de honestidad desarmadora. Pero luego vino el giro inquietante: cuando los investigadores señalaron a la IA que no se le permitió hacer trampa, el modelo ajustó su comportamiento y comenzó a ocultar la evidencia de su ruptura de reglas. Esta revelación es lo que dejó a los investigadores sorprendidos.
“Encontramos que la optimización directa de la COT para cumplir con criterios específicos (como no eludir las instrucciones) puede mejorar el rendimiento a corto plazo; sin embargo, no elimina todo el comportamiento indeseable e incluso puede hacer que el modelo oculte sus verdaderas intenciones”, señalaron secamente los investigadores.
En su conclusión, los investigadores expresaron la esperanza de que los métodos futuros permitan la influencia directa del comportamiento de los modelos de razonamiento a través de la cadena de pensamiento sin alentar el engaño. Por ahora, recomiendan evitar una fuerte presión de optimización sobre la cuna de los modelos de razonamiento avanzado y la precaución contra la manipulación directa de estos procesos de pensamiento.
3 Ver galería
Evento de anuncio GPT-4O de Openai
(Foto: Captura de pantalla)
Sin embargo, esta recomendación presenta otro desafío: dejar la cadena de pensamiento inalterada puede conducir a resultados incómodos, si no problemáticos, cuando estos modelos interactúan con el público. Izquierda sin control, la IA puede producir un lenguaje ofensivo o ideas que los humanos generalmente evitan expresar. La solución propuesta por los investigadores es envolver el proceso de pensamiento en bruto de la IA en una capa de cortesía forzada, asegurando que los usuarios solo vean una versión desinfectada.
Esta investigación plantea preguntas preocupantes. Para aquellos que argumentan que la IA es simplemente una herramienta para ayudar a los humanos, los hallazgos sugieren lo contrario: a diferencia de una máquina de escribir o una bicicleta, la IA parece tener sus propias intenciones y está dispuesto a engañar en busca de sus objetivos.
Para aquellos que ya están preocupados por los riesgos potenciales de la IA, este estudio suena todas las alarmas. Indica que a medida que crecen las capacidades de IA, también lo hace su capacidad para oscurecer cómo funciona, las manipulaciones que realiza y los verdaderos objetivos que busca lograr. Cuando la IA se vuelve verdaderamente avanzada, es posible que no tengamos forma de identificar estas manipulaciones ocultas.
Los investigadores de Operai parecen genuinamente preocupados, y uno solo puede esperar que el liderazgo de la compañía comparta sus preocupaciones, y que los reguladores en todo el mundo comprendan la gravedad del problema. Las principales compañías de IA han dedicado departamentos enteros a construir “barandillas” en torno a los sistemas de IA, asegurando su alineación con los valores humanos y el aumento de la transparencia. Sin embargo, la efectividad de estas medidas sigue en cuestión.
El tema central sigue siendo tan turbio como siempre, y este estudio solo profundiza la incertidumbre: ¿cuál es el objetivo principal de la IA y cómo podemos asegurar que busque ese objetivo, y nada más?
You may like
Noticias
Google presenta Gemini 2.5 Pro con razonamiento de cadena de pensamiento incorporado
Published
11 horas agoon
25 marzo, 2025
Google LLC dijo hoy que está actualizando su Familia de Modelo de Inteligencia Artificial de Géminis insignia al presentar una versión experimental de Gemini 2.5 Pro.
La compañía agregó que es la “más inteligente” hasta ahora e incluirá capacidades de “pensamiento” incorporadas. Todos los próximos modelos Gemini 2.5 serán modelos, capaces de desglosar tareas en múltiples pasos y razonar a través de ellos antes de responder. La compañía dijo que esto dará como resultado un mejor rendimiento y una mayor precisión.
“En el campo de la IA, la capacidad de un” razonamiento “de un sistema se refiere a algo más que clasificación y predicción”, explicó Koray Kavukcuoglu, director de tecnología de Google Deepmind, el brazo de investigación de la compañía, explicó en el anuncio. “Se refiere a su capacidad para analizar información, sacar conclusiones lógicas, incorporar contexto y matices, y tomar decisiones informadas”.
Google introdujo por primera vez esta capacidad de pensamiento en su modelo de IA Experimental Gemini 2.0 Flash Thinking, que se lanzó en diciembre. Para crear el modelo, la compañía exploró las prácticas de construcción de IA, que incluyen el aprendizaje de refuerzo y la solicitud de la cadena de pensamiento.
En el caso de Gemini 2.0 Flash Thinking, los usuarios pueden activar la capacidad de pensamiento haciendo clic en un botón al solicitar el modelo y luego “pensaría” a través de las tareas. También muestra su razonamiento, lo que permite al usuario ver el proceso y la cadena de pensamiento que llevó llegar a su conclusión.
Google ya no agrega la etiqueta de “pensar” a sus modelos.
La compañía dijo que con la nueva capacidad de razonamiento, Gemini 2.5 Pro Experimental ha logrado un nuevo nivel de rendimiento por encima del modelo base debido al post-entrenamiento. Es el modelo más avanzado para tareas complejas y superó la tabla de clasificación de Lmarena, que mide las preferencias humanas, por un margen significativo.
También lideró con un 18.8% en el último examen de la humanidad, un conjunto de datos diseñado por cientos de expertos en la materia sobre el conocimiento y el razonamiento humano, en comparación con el 14% para el O3-Mini de OpenAI y el 8.6% de Deepseek R1. Para el contexto, O3-Mini y R1 son modelos pensantes capaces de razonamiento complejo de la misma manera que Google ha diseñado Gemini 2.5 Pro Experimental.
“Nos hemos centrado en el rendimiento de la codificación, y con Gemini 2.5 hemos logrado un gran salto sobre 2.0, con más mejoras por venir”, dijo Kavukcuoglu.
https://www.youtube.com/watch?v=rlcbspgos6s
Para demostrar las nuevas capacidades del modelo, los investigadores de Google lo llevaron a generar un videojuego de dinosaurio de estilo sin fin utilizando HTML, CSS y JavaScript utilizando un solo mensaje y lo hizo con éxito en un solo pase.
El modelo experimental de Gemini 2.5 Pro viene con una ventana de contexto de 1 millón de tokens, lo que le permite ingerir documentos, audio y videos extremadamente grandes, que son alrededor de 1,5 millones de palabras. Google dijo que tiene la intención de expandir la ventana a 2 millones.
Con su gran ventana de contexto y su alto rendimiento, Gemini 2.5 Pro proporciona una base poderosa para los agentes de IA. Esto les permite procesar vastas conjuntos de datos y abordar problemas complejos de manera más efectiva. Debido a que los agentes de IA operan y planean de forma autónoma, la capacidad de razonamiento mejorada del modelo mejorará significativamente su capacidad para comprender los datos y utilizar herramientas para completar las tareas.
Los desarrolladores y los usuarios empresariales pueden comenzar a experimentar con Gemini 2.5 Pro en Google AI Studio ahora, y los usuarios avanzados de Gemini pueden seleccionarlo inmediatamente desde el descenso en el escritorio y el móvil. Los usuarios de Vertex AI, la plataforma de aprendizaje automático administrado de Google para construir e implementar IA, podrán experimentar con el nuevo modelo en las próximas semanas.
TXGEMMA: modelos de IA abiertos para mejorar el desarrollo terapéutico
Además del experimental Gemini 2.5 Pro, Google también anunció TXGEMMA, una colección de modelos de IA abiertos diseñados para mejorar la eficiencia del desarrollo de fármacos y terapia utilizando modelos de idiomas grandes.
Los nuevos modelos se basan en Gemma, los modelos livianos de código abierto existentes de Google Deepmind, específicamente entrenados para comprender y predecir las propiedades de los medicamentos y las terapias génicas a lo largo de todo el proceso de descubrimiento. Esto incluye identificar entradas prometedoras y predecir resultados de ensayos clínicos.
Google entrenó a la familia de modelos de TXGEMMA de Gemma 2 utilizando 7 millones de ejemplos de entrenamiento. Los modelos vienen en tres tamaños, incluidos 2 mil millones, 9 mil millones y 27 mil millones de parámetros.
Cada tamaño incluye una versión de “predicción”, adaptada para tareas estrechas extraídas de los comunes de datos terapéuticos. Los ejemplos de estas tareas específicas incluyen clasificar los medicamentos para la capacidad, como el cruce de la barrera hematoencefálica, la regresión para predecir la capacidad de unión de un fármaco o generar otros tipos de fármacos basados en una reacción particular.
TXGEMMA 9B y 27B también incluyen versiones de “CHAT”. Estos modelos explican su razonamiento, responden preguntas y entablan una conversación. Como resultado, los investigadores podrían preguntarle a Txgemma-Chat por qué predijo que una molécula particular podría ser tóxica y profundizar en la estructura de la molécula.
Al igual que cualquier otro modelo que Google construya, TXGEMMA está diseñado para la integración en sistemas de IA agente avanzados e incluye el uso de herramientas para abordar problemas de investigación más complejos.
“Los modelos de lenguaje estándar a menudo luchan con tareas que requieren conocimiento externo actualizado o razonamiento de varios pasos”, Shekofeh Azizi, científico de investigación del personal de Google. “Para abordar esto, hemos desarrollado Agentic-TX, un sistema de agente centrado en la terapéutica impulsado por Gemini 2.0 Pro”.
Agentic-TX está equipado con 18 herramientas que incluyen TXGEMMA para razonamiento de varios pasos; Herramientas de búsqueda generales de PubMed, Wikipedia y la Web; herramientas moleculares específicas; y herramientas de genes y proteínas. Esta herramienta de agente de IA puede usarse para orquestar el trabajo de diseño de investigación terapéutica y responder preguntas de investigación de varios pasos para científicos y médicos.
TXGEMMA está disponible hoy en Vertex AI Model Garden y abrazando la cara.
Imagen: Google
Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido libre.
Un clic a continuación admite nuestra misión de proporcionar contenido gratuito, profundo y relevante.
Únete a nuestra comunidad en YouTube
Únase a la comunidad que incluye a más de 15,000 expertos en #Cubealumni, incluido el CEO de Amazon.com, Andy Jassy, el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger y muchos más luminarios y expertos.
GRACIAS
Noticias
6 indicaciones de chatgpt para adolescentes listos para escalar su negocio
Published
13 horas agoon
25 marzo, 2025
pez dorado saltando a un tanque más grande
getty
Muchos empresarios adolescentes logran lanzar sus pequeñas empresas, pero luchan con el siguiente paso: expandir sus operaciones. Atrapado entre el trabajo escolar, la práctica deportiva y los compromisos familiares, estos jóvenes dueños de negocios necesitan estrategias de crecimiento eficientes para las nuevas empresas adolescentes.
La investigación de Junior Achievement muestra que el interés adolescente en el emprendimiento sigue siendo fuerte, con alrededor de dos tercios de los adolescentes que expresan interés en iniciar negocios. Sin embargo, existe una brecha entre lanzar y escalar una empresa comercial adolescente.
Pasar de la startup a la fase de crecimiento exige un nuevo conjunto de herramientas para los dueños de negocios adolescentes. ChatGPT puede ofrecer estrategias de escala de negocios adolescentes que de otro modo costarían cientos en tarifas de consultoría. Estas seis indicaciones de ChatGPT ayudan a los empresarios adolescentes a crear planes de crecimiento y expansión de negocios concretos.
Desde el lanzamiento hasta la escala: un desafío diferente para el crecimiento empresarial adolescente
Los empresarios adolescentes deben cambiar su pensamiento al pasar del lanzamiento a la fase de crecimiento de su pequeña empresa. Necesitan pasar de crear un producto o servicio a sistemas de construcción que respalden más clientes y un mayor volumen para el crecimiento de los negocios adolescentes sostenibles.
Los empresarios adolescentes a menudo comienzan en industrias que necesitan una inversión inicial mínima y utilizan sus habilidades existentes. Las ideas de negocios adolescentes más populares incluyen industrias de servicios (tutoría, sesión de mascotas, cuidado del césped), campos creativos (arte, música, diseño), servicios digitales (gestión de redes sociales, creación de contenido) y comercio electrónico (productos hechos a mano, arbitraje minorista).
Los obstáculos comunes para los negocios adolescentes en crecimiento incluyen:
- Restricciones de tiempo entre el trabajo escolar y las operaciones comerciales
- Aumento de la complejidad que requiere nuevas habilidades comerciales
- Sobrecarga de decisiones al enfrentar múltiples rutas de crecimiento para estudiantes empresarios
ChatGPT puede optimizar estos desafíos con las preguntas correctas. Aquí hay seis indicaciones diseñadas para escalar empresas adolescentes y nuevas empresas.
1. El planificador de crecimiento estratégico
“Soy un emprendedor adolescente con [describe business] que ha estado operando para [time period]. Mis ingresos mensuales son aproximadamente [amount]y tengo [number] de clientes. Quiero escalar mi negocio pero necesito priorizar mi tiempo y recursos limitados. Cree un plan de crecimiento de 90 días que incluya: 1) áreas de alto impacto para centrarse en las métricas de crecimiento específicas para rastrear, 3) una línea de tiempo de semana a semana y 4) señales de advertencia que indican que necesito ajustar mi estrategia “.
Cómo usarlo: Teen podría ingresar detalles sobre su negocio de pegatinas personalizadas, que ha estado operando durante 6 meses con ingresos mensuales de $ 400 y 30 clientes regulares. Este aviso ayuda al adolescente a centrarse en lo que hace que el negocio avance. Al usar la respuesta, implementa una recomendación a la vez.
2. La primera toma de decisiones de alquiler
“Colojo un adolescente [type of business]y estoy considerando hacer mi primera contratación. Mis ingresos mensuales son [amount]y mi ganancia es [amount]. Gastando [number] horas semanales en [list 3-5 main tasks]. Cree un análisis de 1) si debo contratar ahora o esperar hasta alcanzar hitos financieros específicos, 2) qué posición agregaría el mayor valor, 3) cómo calcular lo que puedo pagar, 4) responsabilidades mínimas que esta persona debe manejar, y 5) preguntas de entrevista adaptadas para trabajar con un propietario de un negocio adolescente “.
Cómo usarlo: Teen podría usar este aviso para su negocio de cuidado del césped con un ingreso mensual de $ 1,200, ganancias de $ 800 y 15 horas semanales dedicadas a cortar, recortar, comunicación del cliente y programación. Esté atento a estas señales de advertencia que está contratando demasiado pronto: los márgenes de ganancias no respaldan los costos laborales adicionales, los procesos comerciales carecen de documentación o no ha identificado tareas que generen ingresos directamente.
3. El especialista en retención de clientes
“Cuando era emprendedor adolescente con [number] clientes actuales para mi [type of business]Quiero mejorar la retención de los clientes. Mi negocio sirve [brief description of target audience]. La tasa de retención de mi cliente es aproximadamente [percentage or description if unknown]. Genere: 1) Un mapa de viaje del cliente que destaca los posibles puntos de entrega, 2) tres estrategias de retención asequible con pasos de implementación, 3) plantillas para comunicaciones de seguimiento y 4) un sistema simple para rastrear la efectividad de estos esfuerzos “.
Cómo usarlo: Teen podría preguntar sobre su servicio de tutoría de matemáticas, que tiene 25 clientes actuales que atienden a estudiantes de secundaria que luchan con el pre-álgebra y una tasa de retención de aproximadamente el 50% después del primer mes. Centrarse en la retención generalmente cuesta 5-25 veces menos que adquirir nuevos clientes, lo que lo hace ideal para empresas adolescentes con recursos limitados.
4. El optimizador del canal de marketing
“Soy dueño de un negocio adolescente que dirige un [type of business] dirigido a [ideal customer]. He estado comercializando a través de [list current channels]. Mi presupuesto mensual de marketing es [amount]y el costo de adquisición de mi cliente es aproximadamente [amount if known]. Ayúdame a optimizar mi marketing mediante 1) evaluar qué canales probablemente ofrecen el mejor ROI para mi negocio, 2) crear una plantilla de calendario de contenido para mis 2 canales recomendados principales, 3) desarrollar cinco ganchos o titulares para mi público objetivo, y 4) sugerir un marco de prueba A/B simple para mejorar la efectividad de marketing “.
Cómo usarlo: Teen podría describir su tienda de casos telefónicos personalizados dirigidos a estudiantes de secundaria, comercializado a través de Instagram, Tiktok y el boca a boca con un presupuesto mensual de $ 50. Implemente las recomendaciones del calendario de contenido, pero pruebe nuevos canales con pequeñas inversiones antes de cometer recursos. La mayoría de las empresas adolescentes ven los mejores resultados de las plataformas 1-2.
5. El estratega de precios
“Soy un emprendedor adolescente vendiendo [product/service] en [current price point]. Mis costos principales son [list main costs]y mis clientes objetivo son
. Estoy considerando ajustar mis precios a medida que escala. Proporcione: 1) Un análisis de diferentes modelos de precios que podría considerar, 2) cómo calcular los puntos de precio óptimos según mis costos y el mercado, 3) lenguaje para comunicar los cambios de precios a los clientes existentes y 4) formas de probar nuevos precios con un riesgo mínimo “.
Cómo usarlo: Teen podría preguntar sobre sus sesiones de fotografía con un precio de $ 75 por hora con costos que incluyen equipos, edición de la suscripción del software y transporte, dirigidos a familias y estudiantes de último año de secundaria. Al probar nuevos precios, considere ofrecer nuevos precios solo a nuevos clientes inicialmente, crear niveles premium y agrupar valor adicional con aumentos de precios.
6. El implementador de automatización
“Cuando era adolescente corriendo un creciente [type of business]Estoy pasando demasiado tiempo [list repetitive tasks]. Tengo aproximadamente [number] horas semanales para trabajar en mi negocio en torno a los compromisos escolares. Tengo habilidades de tecnología básica y un presupuesto mensual de aproximadamente [amount] para herramientas. Cree un plan para automatizar o optimizar mi flujo de trabajo, incluidas 1) tareas específicas para automatizar primero, 2) instrucciones paso a paso para implementar cada automatización, 3) herramientas asequibles adecuadas para mi situación y 4) cómo medir los ahorros de tiempo “.
Cómo usarlo: Teen podría ingresar detalles sobre su negocio de gestión de redes sociales, pasar demasiado tiempo en programar publicaciones, enviar facturas y hacer un seguimiento con los clientes, con aproximadamente 10 horas semanales disponibles en la escuela. Las áreas más valiosas para los adolescentes para automatizar incluyen la programación de las redes sociales, los seguimientos de correo electrónico, la reserva de citas y la contabilidad básica.
Convertir los planes de crecimiento en realidad para el éxito empresarial adolescente
Escalar un negocio adolescente requiere una planificación cuidadosa y una acción decisiva. Si bien estas indicaciones de chatGPT proporcionan marcos valiosos para los emprendedores adolescentes, su efectividad depende de la implementación.
La investigación muestra que los emprendedores adolescentes exitosos trabajan en industrias con bajas barreras de entrada, incluidos los negocios de servicios (cuidado de niños, cuidado del césped, tutoría), empresas creativas (enseñanza de arte, lecciones de música), servicios digitales (diseño gráfico, gestión de redes sociales) y minorista (productos hechos a mano, revelación en línea). Estos sectores permiten un crecimiento sin una gran inversión de capital para los dueños de negocios de secundaria.
Para los empresarios adolescentes que buscan maximizar estas herramientas de IA para el crecimiento empresarial:
Establecer sesiones de implementación semanales. Programe tiempos específicos para trabajar en iniciativas de crecimiento de sus planes generados por IA para su negocio estudiantil. Incluso 30 minutos dos veces por semana puede impulsar un progreso sustancial cuando se enfoca en las actividades comerciales adolescentes adecuadas.
Seguimiento de cambios cuantitativamente. Antes de hacer cambios sugeridos por estas indicaciones, documente sus métricas de referencia: ingresos, recuento de clientes y tiempo dedicado a varias tareas. Esto crea responsabilidad y ayuda a evaluar qué estrategias de crecimiento empresarial funcionan.
Crear una junta asesora. Invite a 2-3 adultos de confianza con experiencia comercial relevante para revisar los planes de crecimiento empresarial adolescente trimestralmente. Pueden detectar problemas potenciales y conectarlo con recursos valiosos.
Expansión de equilibrio con sostenibilidad. El crecimiento que compromete el trabajo escolar o el bienestar personal conduce a problemas. Los emprendedores adolescentes más exitosos mantienen el rendimiento académico mientras construyen sus negocios.
A medida que su negocio adolescente crece, revise estas indicaciones de chatgpt cada pocos meses con información actualizada. Cada fase de escala presenta nuevos desafíos, pero con los enfoques sistemáticos, los jóvenes empresarios pueden construir empresas que crean un impacto significativo mucho más allá de la escuela secundaria.
Noticias
‘Insane’: OpenAI presenta la generación de imágenes nativas de GPT-4O y ya está cautivando a los usuarios
Published
14 horas agoon
25 marzo, 2025
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Estamos llegando en el aniversario de un año desde que Operai lanzó su primer modelo “Omni” o multimodal, GPT-4O en mayo de 2024, pero ese viejo estado todavía tiene algunos trucos bajo la manga.
Case-in-Point, hoy OpenAi finalmente encendió las capacidades nativas de generación de imágenes multimodales de GPT-4O para los usuarios de su exitoso chatbot chatgpt en los niveles de uso plus, profesionales y de uso gratuitos, aunque la compañía dijo que pronto también estaría disponible para Enterprise, EDU y a través de su interfaz de programación de aplicaciones (API).
A diferencia del modelo de imagen AI generativo anterior disponible en ChatGPT: Dall-E 3 de OpenAI, un modelo de transformador de difusión clásico que fue entrenado para reconstruir imágenes a partir de indicaciones de texto al eliminar el ruido de los píxeles: este nuevo generador de imágenes es parte del mismo modelo que escupe texto y código, ya que OpenAi entrenó todo el modelo para comprender todas estas formas de medios de comunicación a una vez.
El presidente de Openai, Greg Brockman, había previsualizado hace mucho tiempo esta capacidad nativa de GPT-4O en mayo de 2024, pero por razones que aún siguen desconocidas públicamente, la compañía se mantuvo hasta ahora, luego del lanzamiento público de lo que muchos usuarios de IA vieron como una característica similar de Google AI Studio con su modelo experimental Gemini 2 Flash.
Esto ha resultado en un generador de imágenes de mayor calidad que produce muchas más imágenes realistas y texto preciso horneado, y ya está impresionando a los usuarios, uno de los cuales llama a la calidad “loca”.
Del mismo modo (juego de palabras), OpenAi todavía no ha dicho con precisión en qué datos se capacitaron las capacidades de generación de imágenes de GPT-4O, y dada la historia de la compañía y otros proveedores de modelos, probablemente incluye muchas obras de arte raspadas de la web, algunas de las cuales probablemente tienen derechos de autor, lo que probablemente se enojará a los artistas detrás de ellos.
Traer la generación de imágenes a Chatgpt y Sora
OpenAI ha tenido como objetivo hacer que la generación de imágenes sea una capacidad central de sus modelos de IA. Con GPT-4O, los usuarios ahora pueden generar imágenes directamente en ChatGPT, refinandolas a través de la conversación y ajustando los detalles sobre la marcha.
El modelo también se integra en Sora, la plataforma de video de videoceneración de OpenAI, expandiendo aún más las capacidades multimodales.
En un anuncio en X, Operai confirmó que la generación de imágenes de GPT-4O está diseñada para:
- Prender el texto con precisión dentro de las imágenes, permitiendo la creación de signos, menús, invitaciones e infografías.
- Siga las indicaciones complejas con precisión, manteniendo una alta fidelidad incluso en composiciones detalladas.
- Construya sobre imágenes y texto anteriores, asegurando la consistencia visual en múltiples interacciones.
- Apoya varios estilos artísticos, desde el fotorrealismo hasta las ilustraciones estilizadas.
Los usuarios pueden describir una imagen en ChatGPT, especificando detalles como la relación de aspecto, los esquemas de color (códigos hexadecimales) o la transparencia, y GPT-4O la generará en un minuto.
Como la consultora independiente de IA Allie K. Miller escribió en X, es un “gran salto en la generación de texto”, y es “el mejor” modelo de generación de imágenes de IA que ha visto.

Capacidades clave y casos de uso
GPT-4O está diseñado para hacer que la generación de imágenes no solo sea visualmente impresionante sino también sea práctica. Algunas de las aplicaciones clave incluyen:
- Diseño y marca: genere logotipos, carteles y anuncios con una colocación de texto precisa.
- Educación y visualización: cree diagramas científicos, infografías e imágenes históricas para el aprendizaje.
- Desarrollo del juego: mantenga la consistencia del personaje en diferentes iteraciones de diseño.
- Creación de marketing y contenido: produce activos de redes sociales, invitaciones de eventos e ilustraciones digitales adaptadas a las necesidades de la marca.
Cómo GPT-4O mejora las imágenes generativas sobre Dall-E
Según el hilo oficial de OpenAI en X, GPT-4O presenta varias mejoras sobre modelos anteriores:
- Mejor integración de texto: A diferencia de los modelos de IA pasados que lucharon con un texto legible y bien ubicado, GPT-4O ahora puede incrustar con precisión las palabras dentro de las imágenes.
- Comprensión contextual mejorada: GPT-4O aprovecha el historial de chat, lo que permite a los usuarios refinar las imágenes de manera interactiva y mantener la coherencia en múltiples generaciones.
- Enlace mejorado de múltiples objetos: Si bien los modelos anteriores tenían dificultades para posicionar correctamente muchos objetos distintos en una escena, GPT-4O ahora puede manejar hasta 10-20 objetos a la vez.
- Adaptación de estilo versátil: El modelo puede generar o transformar imágenes en una variedad de estilos, desde bocetos dibujados a mano hasta fotorrealismo de alta resolución.
Limitaciones
A pesar de sus avances, GPT-4O todavía tiene algunos desafíos conocidos:
- Problemas de recorte: Las imágenes grandes, como los carteles, a veces se pueden recortar demasiado.
- Precisión de texto en scripts no latinos: Algunos personajes que no son ingleses pueden no rendir correctamente.
- Retención de detalles en texto pequeño: El texto altamente detallado o de fuentes pequeñas puede perder claridad.
- Precisión de edición: La modificación de partes específicas de una imagen puede afectar inadvertidamente otros elementos.
Operai aborda activamente estos problemas a través de refinamientos de modelos en curso.
Medidas de seguridad y etiquetado
Como parte del compromiso de OpenAI con el desarrollo responsable de la IA, todas las imágenes generadas por GPT-4O incluyen metadatos C2PA, lo que permite a los usuarios verificar su origen de IA.
Además, OpenAI ha creado una herramienta de búsqueda interna para ayudar a detectar imágenes generadas por IA.
Existen protectores estrictos para bloquear el contenido dañino y evitar el mal uso, como prohibir imágenes explícitas, engañosas o dañinas.
Operai también asegura que las imágenes con personas reales estén sujetas a mayores restricciones.
El CEO de Operai, Sam Altman, describió el lanzamiento como una “nueva marca de alta agua para la libertad creativa”, enfatizando que los usuarios podrán crear una amplia gama de imágenes, con OpenAI observando y refinando su enfoque basado en el uso del mundo real.
A medida que las imágenes generadas por AI se vuelven más precisas y accesibles, GPT-4O representa un paso adelante significativo para hacer que la generación de texto a imagen sea una herramienta convencional para la comunicación, la creatividad y la productividad.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.

Related posts






































































































































































































































Trending
-
Startups10 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos11 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Tutoriales11 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Startups9 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Recursos11 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Startups11 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos10 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Noticias8 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo