Connect with us

Noticias

Probé la nueva función de Gemini y funciona tal como esperaba

Published

on

Edgar Cervantes / Autoridad Android

Gemini 2.0 se lanzó ayer y Google anunció una función adicional junto con él. Llamado Deep Research, técnicamente es parte del modelo 1.5 Pro y le ayuda a realizar una investigación sobre un tema específico en minutos en lugar de las horas que normalmente necesitaría.

Es la función que estaba esperando porque tengo muchos intereses y Deep Research podría ayudarme a aprender más sobre ellos más rápido. Lo probé para ver qué tan bien funciona y tengo sentimientos encontrados al respecto.

¿Ya has probado la nueva función de investigación profunda de Gemini?

22 votos

Cómo utilizar la investigación profunda

Antes de pasar a la parte práctica y mi experiencia con la nueva herramienta Deep Research, hablemos sobre cómo usarla. Primero, las malas noticias: Deep Research es parte de la suscripción Gemini Advanced, por lo que deberás desembolsar $20 por mes para usarla. Google generalmente ofrece funciones pagas a los usuarios gratuitos con el tiempo, como lo hizo con su generador de imágenes de IA, pero la compañía no ha compartido ningún detalle al respecto hasta ahora. Además, Deep Research solo está disponible en la web en este momento, pero pronto llegará a las aplicaciones móviles.

Investigación profunda de Géminis

Mitja Rutnik / Autoridad de Android

Si tiene una suscripción a Gemini Advanced, abra el chatbot y seleccione la opción “1.5 Pro con investigación profunda” en el menú desplegable de la parte superior, como se muestra en la captura de pantalla anterior.

Entonces comienza la parte divertida. Puede comenzar con un mensaje muy simple como “Ayúdame a investigar tendencias de vehículos autónomos para mi ensayo”, o podría ser mucho más preciso con su solicitud. Una vez que ingrese su mensaje, Gemini creará un plan y le mostrará un resumen exacto del informe que creará a partir de la investigación. Puedes seguir adelante y estar de acuerdo con él o decirle a Géminis que lo cambie, ya sea agregándole algo o deshaciéndote de partes de él.

Luego tendrás que esperar unos minutos hasta que Deep Research haga su trabajo. Una vez que se complete la investigación, el informe completo estará disponible. Si necesita más información, puede hacer preguntas de seguimiento. También puede abrir el informe en Google Docs. Como todos los chats de Gemini, se guardará en tu historial para su uso posterior.

Práctica con la investigación profunda de Géminis

Plan de investigación profunda Géminis

Mitja Rutnik / Autoridad de Android

Así es como funciona Deep Research en el papel, pero ahora es el momento de ver qué tan bien funciona en la vida real.

Quería empezar con algo un poco más complejo. Soy un nerd de las finanzas y amo el mercado de valores. Intento estar al día de las últimas novedades a diario, pero no siempre es fácil. Algunas fuentes en línea me brindan una breve descripción de lo que sucedió en el mercado el día anterior, y si tengo preguntas adicionales o quiero datos más detallados, tengo que visitar numerosos sitios web para obtener todo lo que necesito.

Decidí probar si Deep Research podía brindarme todos los datos que quiero ver en una página y luego puedo hacer un seguimiento con preguntas adicionales si tengo alguna. Aquí está el mensaje que utilicé:

Bríndeme una descripción general completa del desempeño del mercado de valores de ayer, que incluya:

  • Variaciones porcentuales en los principales índices del mercado.
  • Acciones de alto y bajo rendimiento dentro del S&P 500.
  • Desempeño de las 10 principales empresas del S&P 500 por capitalización de mercado.
  • Noticias y eventos clave que influyeron en la actividad del mercado.
  • Análisis experto de la negociación del día.
  • Una vista previa de los factores que se espera afecten al mercado hoy

Gemini se apresuró a mostrarme el plan según mi mensaje y también incluyó más detalles, como la fecha exacta; vea la captura de pantalla anterior. Después de hacer clic en “Iniciar investigación”, tuve que esperar cuatro minutos y medio antes de que se completara la investigación. Esto puede parecer mucho tiempo ya que estamos acostumbrados a recibir comentarios de Gemini más o menos instantáneamente, pero debemos tener en cuenta que la IA extrajo datos de 73 sitios web; imagínese cuánto tiempo le llevaría hacerlo. por tu cuenta.

El informe creado parece fantástico a primera vista. No es muy largo y no es necesario que lo sea, ya que sólo debería ser una descripción general. Incluye un par de tablas y hay fuentes debajo de cada párrafo de las cuales puede verificar de dónde sacó Gemini los datos. Hasta ahora, todo bien. Sin embargo, una vez que comencé a leer el informe en detalle, las limitaciones de Deep Research se hicieron evidentes.

Informe de investigación profunda de Géminis

Mitja Rutnik / Autoridad de Android

Pero comencemos con lo positivo. La descripción general básica del mercado, junto con los cambios porcentuales de los principales índices, es excelente. La sección sobre noticias y eventos que impactaron el mercado también es sólida, aparte de algunos contratiempos, y vale la pena leer la conclusión.

Sin embargo, hay problemas en casi todas las secciones. La tabla que enumera el desempeño de las 10 principales empresas del S&P 500 por capitalización de mercado en realidad no incluye las 10 principales empresas por capitalización de mercado. Solo muestra nueve empresas, y ninguna de ellas se encuentra entre las 10 más grandes de EE. UU. Es más, no muestra el cambio porcentual de cuatro de las empresas que enumera y simplemente dice: “No disponible”.

El texto adjunto es aún más confuso, ya que habla de datos del año hasta la fecha en lugar de datos del día específico como solicité, lo que lo hace inútil para mí. Y lo que me pareció particularmente extraño es la frase: “Una empresa desconocida lideró el S&P 500 con un rendimiento en lo que va del año del 308,05%”. Este tipo de datos en el mercado de valores suele ser transparente, por lo que no estaba seguro de por qué Gemini no mencionaba el nombre de la empresa. ¿Qué pasa con todo el secreto, Google?

Sin embargo, todo quedó claro al mirar la fuente. La fuente no incluye los nombres de las empresas para los usuarios gratuitos, ya que es necesario tener una cuenta para verlas. Gemini no tuvo esto en cuenta, por lo que simplemente dijo “una empresa desconocida”. También había muchos otros datos sin importancia en varias secciones que parecían fuera de lugar y que realmente no aportaban mucho valor.

A Géminis le fue mejor en su segundo y tercer intento.

Sin embargo, intenté darle a Géminis una segunda y una tercera oportunidad. Primero le pedí que investigara diferentes estilos de diseño de interiores y combinaciones de colores y cuál era el más adecuado para un apartamento pequeño en un edificio moderno. La tarea fue mucho más fácil para Gemini que la relacionada con las acciones, y hizo un buen trabajo. Esta vez no hubo errores estúpidos, pero podría argumentar que el informe proporcionado fue un poco básico y no incluyó ninguna imagen, lo cual es importante cuando se habla de diseño. Cuando se le pidió que proporcionara imágenes, Gemini dijo que no podía hacerlo.

Luego le pedí que investigara el tema de los chatbots de IA y me dijera cuáles existen, qué pueden y qué no pueden hacer, cuánto cuestan y qué les depara el futuro. Salió similar al de diseño de interiores. No hubo errores importantes, pero la investigación fue un poco insulsa y se leyó como una publicación estándar en un sitio web. La introducción del informe incluso incluía una frase que decía: “Este artículo profundiza en el mundo de los chatbots de IA”. lo cual parece algo que Gemini acaba de sacar de un sitio que investigó.

el veredicto

Aplicación Géminis para iOS

Robert Triggs / Autoridad de Android

Según mi experiencia con las extensiones de Gemini, no esperaba que Deep Research funcionara exactamente como se anunciaba. Y tenía razón. Su uso para la investigación del mercado de valores para un día específico resultó ser más o menos inútil en general. Si bien me proporcionó muchos datos interesantes, se equivocó en suficientes cosas como para convencerme de no volver a usarlo. No me proporcionó los datos que solicité y parte de la información que contenía el informe era inútil y no debería incluirse en el informe.

Cuando se trata de temas más amplios (y sencillos) como los chatbots de IA y el diseño de interiores, la historia fue un poco diferente. Si bien los informes proporcionados fueron un poco insulsos y no muy detallados, no hubo errores importantes en ellos que se destacaran e hicieran que todo fuera inútil. Siempre puedes hacer preguntas de seguimiento si deseas obtener información adicional, y esa parte de Deep Research funciona bastante bien.

En general, Deep Research es un éxito y un fracaso.

Entonces, en general, Deep Research es un éxito y un fracaso. Pero aquí tenemos que ser realistas y tener en cuenta el hecho de que la IA aún se encuentra en una etapa temprana de su desarrollo. La idea detrás de esta herramienta Gemini es brillante y, aunque no funciona perfectamente por el momento, sigue siendo bastante útil en ciertos casos. Sólo tienes que ser selectivo en el uso que le darás.

Pero lo que me entusiasma es el futuro en el que Google solucione los problemas con Deep Research. Una vez que la mejore, la herramienta será invaluable en la vida de muchas personas cuando necesiten realizar una investigación en profundidad y no quieran pasar horas clasificando varias fuentes.

¿Qué opinas de la nueva herramienta de investigación profunda de Gemini? ¿Te ves usándolo?

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Google Cloud Next 2025: Gemini y actualizaciones de AI de Agente, nuevas TPUS

Published

on

Pichai destacó que Géminis ahora impulsa cada uno de GoogleLos productos de medio billón de usuarios, incluidos siete con más de dos mil millones de usuarios, y se burlaron de la llegada de Gemini 2.5 Flash, un nuevo modelo de baja latencia optimizado para un razonamiento rápido y una rentabilidad.

Thomas Kurian, CEO de Google Cloudexpandido en esta visión: “Lo que alguna vez fue una posibilidad es ahora la realidad vibrante que estamos construyendo colectivamente”.

Kurian reveló que más de cuatro millones de desarrolladores ahora están construyendo con Gemini, mientras que el uso de Vertex Ai ha crecido 20 veces año tras año, impulsado por la creciente adopción de modelos como Gemini, Imagen y VEO.

Este aumento en el uso está respaldado por la vasta infraestructura de Google: 42 regiones, más de dos millones de millas de fibra submarina y terrestre, y más de 200 puntos de presencia a nivel mundial, todos accesibles para las empresas a través del nuevo servicio WAN en la nube.

En todos los modelos de IA, sistemas de agente, redes y seguridad, el mensaje de Google Cloud fue claro: esta no es solo una plataforma de IA; Es un motor de transformación de pila completa para la empresa.

Estos son todos los anuncios principales de Google Cloud Next 2025:

El CEO de Alphabet, Pichai, subió a la etapa de apertura para provocar el próximo modelo en el arsenal Ai de HyperScaler: Géminis 2.5 Flashun modelo de razonamiento de baja latencia. No se reveló un marco de tiempo de lanzamiento específico, pero el CEO dijo que representa una evolución de su popular modelo de caballo de batalla.

Google Cloud también proporcionó una actualización en VEO 2, Un modelo de generación de videos desarrollado por Google DeepMind, revelando que ahora está “listo para la producción” en la API de Géminis.

El modelo puede seguir instrucciones simples y complejas, así como simular la física del mundo real en videos de alta calidad que abarcan una amplia gama de estilos visuales.

Los primeros usuarios incluyen Wolf Games, que está utilizando VEO 2 para construir “experiencias cinematográficas” para su plataforma de juego de historia interactiva personalizada.

https://www.youtube.com/watch?v=-uqle4fmvka

Conozca el nuevo hardware de hipercomutadores: Ironwood

AI HyperComuter de Google Cloud es el caballo de batalla detrás de casi todas las cargas de trabajo de IA en su plataforma en la nube. El sistema de supercomputación integrado ahora presenta el Última iteración de su línea de hardware personalizadaUnidades de procesamiento de tensor (TPU).

Madera de hierroLa TPU de la 7ª generación ofrece 5 veces más capacidad de cómputo pico y 6x la capacidad de memoria de alto ancho de banda (HBM) en comparación con la generación previa, Trillium.

Las nuevas TPU de Ironwood vienen en dos configuraciones: 256 chips o 9,216 chips, cada una disponible como una cápsula de una sola escala, con la vaina más grande que ofrece 42.5 exafultos de cómputo.

El hardware HyperComuter está diseñado para ser 2 veces más eficiente de energía en comparación con Trillium, al tiempo que ofrece más valor por vatio.

Los desarrolladores ahora pueden acceder a Ironwood a través de la pila optimizada de Google Cloud en Pytorch y Jax.

Google Cloud vio al hiperscaler duplicar su AI agente Ofertas, presentando nuevas herramientas para permitir que las empresas construyan, implementen y escalaran sistemas de múltiples agentes.

En el corazón de las actualizaciones estaba la nueva Kit de desarrollo de agentes (ADK)-Un marco de código abierto que permite a los desarrolladores construir agentes de IA sofisticados en menos de 100 líneas de código. Ya está siendo utilizado por marcas como Renault y Revionics para automatizar los flujos de trabajo y la toma de decisiones.

Para implementar estos agentes en producción, Google introdujo Motor de agenteun tiempo de ejecución totalmente administrado en Vertex AI. Admite memoria a corto y largo plazo, herramientas de evaluación incorporadas e integración nativa con la plataforma Agentspace de Google para un intercambio interno seguro.

El segundo gran anuncio de agente fue el Protocolo de Agente2Agent (A2A) – Un estándar de interoperabilidad abierto que permite a los agentes comunicarse y colaborar en diferentes marcos como ADK, Langgraph y Crew.ai. Ya están a bordo más de 50 socios, incluidos Box, ServiceNow, Uipath y Deloitte.

Actualizaciones de redes: Cloud Wan, Reducciones de costos de servicio Gen AI

Las redes en el próximo 2025 se centraron en la escala para la IA y la mejora del rendimiento de la nube.

Un nuevo Interconexión de nube de 400 g e interconexión de nubellegando a finales de este año, promete 4X el ancho de banda para la incorporación de datos más rápidos y el entrenamiento de modelos de múltiples nubes.

Google Cloud también se introdujo Soporte para grupos de IA de hasta 30,000 GPU En una configuración sin bloqueo, ahora disponible en la vista previa, dirigida a sobrealimentar la capacitación y el rendimiento de inferencia.

Se han reducido los costos generativos de servicio de IA hasta hasta un 30%, con mejoras de rendimiento de hasta el 40%, gracias a innovaciones como GKE Inference Gateway.

Google también debutó Nube wanuna columna vertebral empresarial totalmente administrada que abre su infraestructura de red global para redes de área amplia. Diseñado para simplificar y asegurar arquitecturas WAN Enterprise, ofrece un rendimiento hasta un 40% más rápido en comparación con Internet público.

En el borde, Google anunció Programabilidad y rendimiento mejoradoscon extensiones de servicio ahora GA para equilibrio de carga en la nube. Cloud CDN Support está en camino, lo que permite a los desarrolladores personalizar el comportamiento de la aplicación en el borde utilizando estándares abiertos como WebAssembly.

https://www.youtube.com/watch?v=xzgu02ycsvc

Actualizaciones de seguridad: Google Unified Security, agentes de Géminis

La infraestructura empresarial está creciendo en complejidad, ampliando la superficie de ataque y sobrecargando a los equipos de seguridad aislados. ¿La respuesta de Google? Seguridad unificada de Google (Gus), que ahora está generalmente disponible.

Gus está diseñado para unificar la inteligencia de amenazas, las operaciones de seguridad, la seguridad en la nube y la navegación segura en una sola plataforma con IA, integrando la experiencia de la empresa. Mandante Subsidiaria para ofrecer una protección más escalable y eficiente.

La nueva solución de seguridad crea un tejido de datos de seguridad de búsqueda en toda la superficie de ataque, que ofrece visibilidad, detección y respuesta en tiempo real en redes, puntos finales, nubes y aplicaciones. Las señales de seguridad se enriquecen automáticamente con la inteligencia de amenazas de Google, y cada flujo de trabajo se simplifica con sus modelos insignia de IA Gemini.

Google también introdujo Agentes de seguridad con Géminis. Entre las nuevas herramientas de AI de agente incluyen un agente de triaje de alerta en las operaciones de seguridad de Google, que investiga automáticamente alertas, compila evidencia y realiza veredictos.

Un nuevo agente de análisis de malware en Google Amenazing Intelligence evalúa un código potencialmente malicioso, ejecuta scripts de deobfuscación y entrega veredictos con plena explicación. Ambos están previsamente en la Q2.

Asociaciones: Equipo Ups con Nvidia, Juniper, SAP y más

No sería una nube de Google a continuación sin una serie de asociaciones golpeadas o extendidas, y este año no fue diferente.

El hiperscaler amplió su asociación con Lumen Para mejorar las soluciones de nube y de red. El equipo se centrará en integrar WAN en la nube con los servicios de Lumen, proporcionar acceso directo a la fibra a las regiones de Google Cloud y ofrecer conexiones seguras y obtenidas de aire a Google Distributed Cloud.

Google Cloud también unió fuerzas con Nvidia Para llevar su familia Géminis de modelos de IA a los sistemas Blackwell del fabricante de chips. La medida ve que los modelos de Géminis están disponibles en el momento, lo que permite a los clientes bloquear la información confidencial, como los registros de pacientes, las transacciones financieras e información del gobierno clasificada.

“Al llevar nuestros modelos de Géminis en las instalaciones con el rendimiento innovador de Nvidia Blackwell y las capacidades informáticas confidenciales, estamos permitiendo a las empresas desbloquear todo el potencial de la IA agente”, dijo Sachin Gupta, vicepresidente y gerente general de infraestructura y soluciones en Google Cloud.

Sus modelos Géminis también están llegando a SAVIAEl centro de IA generativo en su plataforma de tecnología comercial. La hiperescala también agregó sus capacidades de video e inteligencia del habla para apoyar la generación (RAG) de recuperación multimodal para el aprendizaje basado en video y el descubrimiento de conocimiento en los productos SAP.

También anunciado fue una colaboración con Redes de enebro para acelerar los nuevos despliegues de campus y ramas empresariales. Los clientes podrán usar la solución WAN Cloud WAN de Google junto con Juniper Mist Wired, Wireless, NAC, Firewalls y Secure SD-WAN Solutions, lo que les permite conectar aplicaciones críticas y cargas de trabajo de IA, ya sea en Internet, en nubes o dentro de los centros de datos.

El hiperscaler se asoció con Oráculo Para presentar un programa de socios diseñado para permitir a Oracle y Google Cloud Partners ofrecer Oracle Database@Google Cloud a sus clientes.

Firma de almacenamiento de datos DataDirect Reds (DDN) también se unió a Google Cloud en su servicio de sistema de archivos paralelo de Luster Administrado, que proporciona hasta 1 TB/s de rendimiento para servicios de acceso rápido para empresas y startups que construyen AI y aplicaciones de computación de alto rendimiento (HPC).

Acentuar También amplió su asociación estratégica con Google Cloud, con la pareja comprometida a trabajar juntos para desarrollar soluciones de IA específicas de la industria.

Estas últimas asociaciones se suman a las que se escriben a principios de este año, como con Deutsche Telekom, con la pareja trabajando juntos en AI Avancement and Cloud Integration en la infraestructura de red del operador.

Google Cloud para impulsar la modernización de red de Deutsche Telekom con IA, Cloud

Google Cloud, Infovista unen fuerzas en la planificación de la red de RF

Google Cloud admite DT y Vodafone Italia con Ran-Driven AI y una revisión de datos

Continue Reading

Noticias

Operai golpea a Elon Musk con contador • El registro

Published

on

Operai ha contrarrestado al cofundador Elon Musk, acusándolo de tácticas ilegales e injustas para descarrilar sus planes de reestructuración y exigir que un juez lo responsabilice por el daño presuntamente infligido en la AI Super-Lab.

El contador considerable [PDF] y la respuesta a las afirmaciones de Musk se presentó ayer en el Tribunal Federal de California. Si bien acusa al magnate de Tesla de una amplia gama de comportamientos destinados a socavar las operaciones de OpenAI, incluido “acoso, interferencia y información errónea”, las dos reclamaciones de alivio de la Contadora se concentran en el intento de febrero de Musk para comprar el fabricante de ChatGPT por $ 97.375 mil millones. Si bien el equipo de Musk ha retratado la oferta como genuina, los abogados de OpenAi lo llaman algo completamente diferente.

En lugar de una oferta de adquisición seria, OpenAI afirma que la medida de Musk fue una “simulada” diseñada “para interferir con la reestructuración corporativa contemplada de OpenAI”. Musk ya no está involucrado en OpenAi y dirige un atuendo de inteligencia artificial rival, Xai, entre otros negocios.

“La carta no incluía evidencia de financiamiento para pagar el precio de compra de casi $ 100 mil millones”, dijo Openai en su presentación de contadores, y agregó que ninguno de los inversores enumerados en la carta de intención de Musk había hecho ninguna diligencia debida. Más tarde, un inversor admitió, según los registros de la corte, que la intención de Musk era obtener acceso a los materiales internos de Openi a través de los procedimientos legales y “detrás de la pared” en el Super Lab de respaldo de Microsoft.

“Aunque OpenAi reconoció la oferta como una finta, su mera existencia, y la tormenta de fuego de los medios que lo rodean, requirió OpenAi para gastar recursos significativos en la respuesta”, dijo el gigante de la IA.

Es ese esfuerzo, y la llamada “oferta simulada”, lo que llevó a OpenAi a acusar a Musk de prácticas comerciales injustas y fraudulentas, así como una interferencia tortuosa con prospectivo ventaja económica (es decir, cuando un tercero interrumpe un posible acuerdo en detrimento del demandante).

Operai está buscando un alivio cautelar para detener la supuesta interferencia y restitución de Musk por los recursos que, según los que afirma, respondieron a su oferta.

Le preguntamos a OpenAi qué esperaba lograr, y nos dirigió a la presentación de la corte y a sus comentarios realizados en la X de Musk, donde el negocio AI dijo que el contador estaba destinado a detener sus “tácticas de mala fe para reducir la velocidad de OpenAi y aprovechar el control de las innovaciones principales de la IA para su beneficio personal”.

[Musk] Intenté confiscar el control de OpenAi y fusionarlo con Tesla como un fin de lucro: sus propios correos electrónicos lo demuestran. Cuando no se salió con la suya, se quedó

“Elon nunca ha sido sobre la misión. Siempre ha tenido su propia agenda”, continuó Openai. “Trató de confiscar el control de OpenAi y fusionarlo con Tesla como una con fines de lucro: sus propios correos electrónicos lo demuestran. Cuando no se salió con la suya, se fue”.

La muy breve historia de una disputa multimillonaria

Para aquellos que han hecho todo lo posible para ignorar la disputa del jefe de Musk y Operai, Sam Altman, puede ser necesaria un poco de historia.

Musk fue uno de los cofundadores de OpenAi, pero se asaltó en 2018 luego de desacuerdos internos sobre el control y la dirección estratégica. Operai alega que el Oligarch SpaceX propuso fusionarse OpenAi con Tesla (que tiene objetivos autónomos impulsados ​​por IA) o buscó un control total, que el equipo de Altman rechazó, lo que llevó a su salida.

En un momento, el liderazgo de Openi temía que Musk se convertiría en un “dictador” de AGI, o poderosa inteligencia general artificial, si se le permitiera un control completo sobre el laboratorio, a juzgar por correos electrónicos surgió durante esta batalla legal.

“Usted declaró que no desea controlar el AGI final, pero durante esta negociación, nos ha demostrado que el control absoluto es extremadamente importante para usted”, escribió Musk, cofundador y mega-boffin Ilya Sutskever. “El objetivo de OpenAi es hacer el futuro el futuro y evitar una dictadura AGI”.

En marzo de 2024, Musk demandó a Openai y Altman alegando incumplimiento de contrato, prácticas comerciales injustas y fallas fiduciarias relacionadas con la estrecha asociación de OpenAI con Microsoft y el establecimiento de una subsidiaria con fines de lucro. (Openai comenzó como una organización sin fines de lucro).

Musk retiró esta demanda en junio del año pasado sin proporcionar una razón pública, pero presentó una casi idéntica un par de meses después. Afirmó el cambio de OpenAi hacia un modelo con fines de lucro contradecía su misión original de desarrollar IA en beneficio de la humanidad.

El equipo legal de Openai describió la queja de Musk como “Lurch[ing] De la teoría a la teoría, distorsione[ing] sus propias exhibiciones y comercio[ing] De principio a fin en conclusiones sin hechos y a menudo ad hominem “.

Operai niega que se esté convirtiendo en una empresa única con fines de lucro, afirmando en su contratación que su plan de reestructuración solo vería que su subsidiaria con fines de lucro se convirtió en una corporación de beneficios público. Ese movimiento es necesario, afirmado Openai, para permitir que el equipo compita mejor por el capital “al servicio de la misión de desarrollar AGI en beneficio de la humanidad”. Dicho esto, Operai continúa recaudando decenas de miles de millones de dólares en fondos, $ 40 mil millones tan recientemente como finales de marzo.

Un portavoz de Operai le dijo además El registro No tenía intención de abandonar su núcleo sin fines de lucro.

“Nuestra junta ha sido muy clara de que tenemos la intención de fortalecer la organización sin fines de lucro para que pueda cumplir su misión a largo plazo”, nos dijo Openai. “No lo estamos vendiendo, estamos duplicando su trabajo”.

Operai también nos señaló el anuncio de la semana pasada de una comisión que comprende expertos en salud, ciencia, educación y servicios públicos para guiar la evolución planificada de las ORG.

“Esperamos los aportes y los consejos de los líderes que tienen experiencia en organizaciones comunitarias sobre cómo podemos ayudarlos a lograr sus misiones”, dijo Openai en un comunicado enviado por correo electrónico.

Sin embargo, OpenAi tiene que completar su transición a una entidad con fines de lucro a fines de 2025 para asegurar que los $ 40 mil millones mencionados anteriormente en fondos dirigidos por SoftBank.

Es probable que la demanda de Musk solo desacelere, especialmente porque el juicio, según una orden previa al juicio esta semana, no se debe comenzar hasta marzo de 2026.

Ni Musk, famoso ahora, la grasa Eminence del presidente Trump, ni su equipo legal respondieron a preguntas para esta historia. ®

Continue Reading

Noticias

La generación de imágenes en chatgpt se ha mejorado mucho

Published

on

Resumen

  • La generación de imágenes 4O en ChatGPT ofrece imágenes fotorrealistas con una consistencia mejorada y sigue con precisión las instrucciones.

  • Los usuarios pueden convertir imágenes en diferentes estilos y refinarlas a través de indicaciones.

  • Las imágenes cargadas se pueden emplear como referencias, o ChatGPT puede utilizar su propia base de conocimiento.

Cuando Operai deja una nueva característica, a menudo hay una pequeña cantidad de zumbido entre las personas interesadas, pero rara vez rompe Internet. Sin embargo, con el lanzamiento de un modelo actualizado de generación de imágenes, ChatGPT hizo exactamente eso.

La generación de imágenes 4O ha reemplazado a Dall-E como la herramienta de generación de imágenes predeterminada en ChatGPT, y los resultados son muy impresionantes. Ha llevado a que las personas inundan Internet con imágenes que han generado utilizando la herramienta, y su popularidad parece haber tomado por sorpresa por sorpresa.

La generación de imágenes 4O está integrada en GPT-4O

Como su nombre indica, 4O Generación de imágenes está integrada en el modelo GPT-4O. Mientras esté utilizando ese modelo, no necesita hacer nada más que pedirle a ChatGPT que cree una imagen, y la generación de imágenes 4O llegará a funcionar. Algunos modelos, como O1, no le permiten crear imágenes, pero parece que 4O Generation de imágenes no se limita a GPT-4O. Intenté crear una imagen en GPT-4, y todavía usaba la generación de imágenes 4O en lugar del modelo Dall-E que se usaba anteriormente.

Si prefiere usar Dall-E por algún motivo, todavía hay un Dall-E GPT dedicado disponible en la tienda pública GPT. Puede usar esto para generar imágenes utilizando el modelo más antiguo y menos capaz. Hay poco uso para eso ahora, aparte de ver cuán mejor se ha vuelto la generación de imágenes.

Crear excelentes imágenes fotorrealistas

Una de las mejoras más obvias sobre Dall-E es que la generación de imágenes 4O puede producir algunas imágenes fotorrealistas excelentes, sin que tenga que preocuparse demasiado por la elaboración rápida. Mientras que las imágenes tardan un poco en generarse y revelan lentamente de arriba hacia abajo de una manera que recuerda cómo las imágenes se solucionan lentamente sobre el acceso telefónico, los resultados son muy superiores a lo que Dall-E podría producir.

Relacionado

La nueva generación de imágenes de Chatgpt se siente como un acceso telefónico de nuevo

Ver mis imágenes aparecer lentamente de arriba hacia abajo me lleva de regreso a los viejos tiempos.

Le pedí a Dall-E una imagen fotorrealista de un mono con un sombrero de copa, y esto es lo que me dio:

Una imagen de un mono con un sombrero de copa generado por Dall-e
Adam Davidson / How-To Geek / Dall-E

Esta es una imagen generada por la generación de imágenes 4O utilizando el mismo aviso:

Una imagen de un mono con un sombrero de copa
Adam Davidson / geek / chatgpt

La diferencia es asombrosa y, francamente, un poco aterradora. Hasta ahora, generalmente es posible saber si una imagen era generada por AI si parecía lo suficientemente fuerte para dedos adicionales o texto destrozado. Sin embargo, las imágenes que genera ChatGPT son muy difíciles de distinguir de lo real, y como se dice comúnmente sobre los nuevos desarrollos de IA, este es lo peor que jamás sean.

Puedes convertir imágenes en diferentes estilos

Una de las cosas que ha incorporado Internet desde el lanzamiento de 4O Generation de imágenes es la capacidad de pedirle a ChatGPT que convierta sus imágenes en diferentes estilos. Por ejemplo, puede subir una foto tuya y pedirle a ChatGPT que la cambie al estilo de Van Gogh. Esto no es algo nuevo, pero la calidad de los resultados es un gran paso adelante de Dall-E.

Una imagen de un mono convertido en el estilo de Van Gogh
Adam Davidson / geek / chatgpt

Esto hizo que muchas personas comenzaran a subir imágenes de sí mismas o de la cultura popular que se habían transformado en el estilo de Studio Ghibli, el popular estudio de animación detrás de películas clásicas como Enérgico y Mi vecino Totoro. Los resultados suelen ser impresionantes, pero provocó un debate en línea sobre cuán ético es usar AI para robar esencialmente el estilo de un artista sin su permiso. En el momento de escribir, sin embargo, todavía podía hacer imágenes al estilo de Studio Ghibli sin problemas.

Es fácil refinar imágenes a través de indicaciones

Otra mejora importante es que la generación de imágenes 4O tiene una excelente consistencia. Esto significa que si hay una pequeña cosa mal con su imagen, puede pedirle a ChatGPT que lo arregle, y dejará solo el resto de la imagen. Dall-E a menudo hará cambios importantes en el resto de la imagen cuando intente arreglar una parte de ella.

Esto hace que sea mucho más fácil obtener la imagen exacta que desea, que a menudo es una gran fuente de frustración con Dall-E. Tendría que probar varias veces incluso para acercarse a la imagen que quería, y a veces fallaría por completo. Ahora, por ejemplo, puede pedir tener el sombrero de copa del mono en un ángulo diferente, y el sombrero cambiará, pero el resto de la imagen permanecerá igual.

Una imagen de un mono en un sombrero con el sombrero movido a un ángulo de treinta grados
Adam Davidson / geek / chatgpt

Esta consistencia también lo hace excelente para producir múltiples imágenes de la misma persona o carácter. Puede pedir que el mismo personaje aparezca en una configuración diferente, y ChatGPT preservará la apariencia del personaje en su nueva imagen.

Chatgpt finalmente puede manejar el texto

Este es uno de los mayores cambios en la generación de imágenes 4O. Dall-E podría agregar texto a las imágenes, pero realmente, realmente luchó por hacerlo. Por lo general, recibirías un mensaje de texto que se parecía principalmente a las palabras que querías, pero que estaban muy ligeramente apagados. Suficiente para arruinar sus imágenes, al menos. Usando la generación de imágenes 4O, puede crear el texto exacto que desea, y genera sin problemas.

Una caricatura de cuatro paneles creada en ChatGPT.
Adam Davidson / geek / chatgpt

Esto, combinado con la consistencia mejorada, significa que puede crear cosas usando la generación de imágenes 4O que simplemente no eran posibles antes. Bosquejé un terrible dibujo de un alienígena de dibujos animados y pude crear una caricatura de cuatro paneles que usó ese personaje, completo con burbujas de habla con texto perfecto. Tomó más tiempo escribir el aviso que para generar mi dibujos animados completos.

4O La generación de imágenes seguirá las instrucciones

Esto es enorme. Uno de los mayores problemas que tuve con Dall-E es que a menudo se negaría a seguir una instrucción, especialmente si esa instrucción involucraba un negativo. Pasé horas tratando de generar una imagen de Santa con bigote pero sin barba (solo para ver cómo se vería, obviamente), y no importa lo que intentara, obtendría una barba completa cada vez.

La única forma en que logré acercarme al éxito fue pedirle que generara una imagen de Hercule Poirot disfrazada de Santa, e incluso entonces, tomó múltiples intentos antes de obtener una imagen sin la barba y un bigote blanco. Ahora, sin embargo, puedo obtener una imagen de Santa sin barba en el primer intento.

Una imagen de Santa con bigote pero sin barba.
Adam Davidson / geek / chatgpt

Sin embargo, la adhesión de instrucciones es aún más impresionante. Puede definir hasta 20 objetos diferentes, describiendo cada uno, y la generación de imágenes 4O seguirá las instrucciones para cada objeto. El ejemplo que ofrece OpenAI es para una cuadrícula 4×4 de emoji con formas y colores específicos, y ChatGPT puede crear una imagen con los 16 emoji exactamente como se describe.

Puede usar imágenes cargadas como referencias

Una desventaja de generar imágenes a partir de indicaciones es que describir lo que desea en una imagen puede ser difícil, pero describir el estilo de la imagen puede ser aún más difícil. Decirle a ChatGPT que produzca el aspecto exacto que tiene en la cabeza no siempre es tan fácil.

Afortunadamente, no solo necesitas usar texto. Puede cargar imágenes para indicar el tipo de estilo que desea para sus imágenes. CHATGPT usará estas imágenes para informar la imagen final que genera a partir de su mensaje.

Un mono con un sombrero de copa al estilo de Studio Ghibli.
Adam Davidson / geek / chatgpt

Si desea un elemento específico en su imagen, por ejemplo, puede cargar una imagen de él en ChatGPT. Si desea que las personas se encuentren en una pose específica, puede subir una imagen de personas que se encuentran en esa pose. Si encuentra una ilustración que desea que fuera una imagen fotorrealista, puede cargarla y pedirle a ChatGPT que lo convierta en una fotografía.

Incluso puede dibujar un bosquejo aproximado de cómo quiere que se vea la imagen, tomar una foto y subirlo a Chatgpt. Luego puede generar una imagen fotorrealista basada en su terrible boceto. Hace que sea mucho más fácil generar la imagen exacta que desea.

Las imágenes pueden llamar al conocimiento de Chatgpt.

La generación de imágenes 4O no se limita a la información en su mensaje o los archivos que carga. GPT-4O tiene su propia base de conocimiento a la que puede recurrir, para ayudarlo a crear las imágenes que desea. Las imágenes Studio Ghibli son un excelente ejemplo; No necesitas explicar cómo se ve Studio Ghibli Animation; Chatgpt ya lo sabe.

Una imagen de 8 bits que explica el ciclo del agua.
Adam Davidson / geek / chatgpt

Sin embargo, esto va mucho más allá de conocer diferentes estilos artísticos. Cualquier conocimiento que ChatGPT tenga se puede aplicar a sus imágenes. Por ejemplo, puede solicitar un diagrama que explique el ciclo del agua, y no necesita explicar cuál es el ciclo del agua; ChatGPT extraerá la información clave de su propio conocimiento.

4O La generación de imágenes no es perfecta (todavía)

4O La generación de imágenes es increíblemente buena. De hecho, es tan bueno que Sam Altman, el CEO de OpenAI, tuviera que agregar límites de tarifa porque las GPU de la compañía comenzaban a derretirse.

Inicialmente, puede crear tantas imágenes como quisiera, pero ahora a menudo verá un mensaje que le dice que debe esperar unos minutos antes de crear otra imagen. No es el único problema que puede encontrar con la generación de imágenes 4O.

Una familia de ardillas al estilo de los Simpson.
Adam Davidson / geek / chatgpt

También hay limitaciones en la creación de ciertos tipos de contenido. En teoría, al menos, no debería poder generar nada ofensivo o inapropiado. Si intenta crear imágenes con caracteres con derechos de autor, ChatGPT también puede rechazar. Las líneas están un poco borrosas aquí. Por lo general, puede crear personajes de un estilo similar, si no los personajes en sí, o evitar las restricciones utilizando indicaciones ligeramente vagas.

El seguimiento de las instrucciones no siempre funciona perfectamente, y todavía ocasionalmente también tengo problemas con el texto. Ahora es muy raro, pero ocasionalmente, arrojará una letra adicional, especialmente si agregar esa letra todavía hace que el texto sea una palabra válida. Sin embargo, generalmente puede corregir fácilmente estos errores con la próxima generación.


La generación de imágenes 4O es un salto considerable en la generación de imágenes de IA, con un fotorrealismo mejorado, una mejor consistencia y una instrucción significativamente mejor. Ahora es increíblemente fácil crear imágenes fotorrealistas que se ven exactamente como quieres.

Sin embargo, hay muchas preguntas éticas que esto plantea. Si eres un diseñador gráfico o un fotógrafo, esta actualización enviará escalofríos por la columna vertebral. Lo que no se puede negar es que esta actualización ha hecho que sea mucho más fácil para los usuarios de ChatGPT crear imágenes muy impresionantes, sean cuales sean los dilemas éticos.

Continue Reading

Trending