Connect with us

Noticias

Según se informa, el nuevo modelo de IA de OpenAI no muestra mejoras masivas

Published

on

¡Buen día! ¿Estás cansado de tener que revisar tu correo electrónico cuando se supone que no estás trabajando? Un número creciente de países está implementando leyes que hacen que esos Los correos electrónicos nocturnos de tu jefe son ilegales..

En la gran historia de hoy, el próximo gran modelo de IA de OpenAI no muestra una mejora masiva con respecto a las versiones anterioresy podría ser una señal de una nueva era.

Qué hay en cubierta:

Pero primero, no tan rápido.


Si esto le fue enviado, regístrate aquí.


la gran historia

Grandes saltos a pequeños pasos


Imagen de Sam Altman

Justin Sullivan/Getty Images



El sector tecnológico de más rápido crecimiento se enfrenta a un grave obstáculo.

Según se informa, el próximo modelo de inteligencia artificial de OpenAI, Orion, no muestra el gran salto de mejora que han disfrutado las versiones anteriores. Esto lleva a preguntas más importantes sobre qué tan rápido podemos esperar que los futuros modelos de IA generativa sigan mejorandoescriben Hasan Chowdhury y Beatrice Nolan de Business Insider.

Algunos empleados de OpenAI que han usado y probado Orion le dijeron a The Information que sus mejoras son solo moderadas y más pequeñas que las que vieron los usuarios al pasar de GPT-3 a GPT-4.

Es una revelación asombrosa si se considera lo que está en juego. OpenAI es considerada la empresa líder en IA y estamos aprendiendo que su nuevo producto más importante puede no ser mucho mejor que algo que lanzó hace unos 20 meses: toda una vida en la industria de la IA.

También socava una suposición central sobre el futuro de la IA generativa: si agrega más datos y potencia informática, obtendrá modelos de IA más inteligentes y potentes. Esta “ley de escala” es la opinión de consenso ahora, pero se informa que OpenAI está luchando con ella.

Los principales actores de la IA tienen valoraciones sorprendentes basadas en la promesa de que los modelos de IA seguirán volviéndose más inteligentes y mejores con el tiempo. Si esa trayectoria de crecimiento se desacelera, podría generar preguntas difíciles, particularmente por parte de los inversores que financian los cientos de miles de millones de dólares que las empresas están invirtiendo en estos proyectos.


Un ojo en el centro mientras lo rodean remolinos abstractos, números y burbujas de chat.

Imágenes falsas; Chelsea Jia Feng/BI



Entonces, ¿qué impide que los modelos de IA den otro gran salto?

Los modelos de IA ya están quemando texto, y una estimación predice que se quedarán sin material para 2028. Las empresas están tratando de sortear el problema con datos sintéticos. pero esa podría no ser una solución viable.

Usar más computación también tiene limitaciones y tiene el obstáculo adicional de necesitando un poder significativo. Las empresas más grandes del mundo están luchando por encontrar fuentes de energía rentables para los enormes centros de datos que están construyendo como parte de su estrategia de IA.

Siempre hubo la expectativa de que las cosas pudieran ralentizarse un poco. En julio, un cliente de OpenAI le dijo a BI que pensaba que la versión más reciente Sería como pasar de una licenciatura a un programa de doctorado.a diferencia del salto de GPT-3 a GPT-4, que fue como “de la escuela primaria a la licenciatura”.

Más recursos pueden ayudar a abordar esos problemas hasta cierto punto, pero es posible que las mejoras aún no reflejen lo que vimos en los primeros días de la IA generativa. Si ese es el caso, los inversores podrían no estar dispuestos a abrir sus billeteras por algo que consideran que tiene rendimientos decrecientes.

Incluso si desembolsan el dinero, es probable que las empresas fijen el precio de sus productos en consecuencia para recuperar esas inversiones. Se trata de una propuesta complicada, ya que “suficientemente bueno” está bien para muchos usuarios.


Resumen de noticias

Titulares principales

3 cosas en los mercados


Dados con las caras de Trump, Musk, RFK y Zelensky

Viktor Kovalchuk/Global Images Ucrania vía Getty Images; Chesnot/Getty Images; Michael M. Santiago/Getty Images; Robert Perry/Getty Images; iStock; Rebeca Zisser/BI



  1. Los mercados de apuestas están dando su vuelta de la victoria y ya piensan en lo que sigue. Además de Donald Trump (y tal vez de Elon Musk), los mercados de apuestas fueron posiblemente uno de los mayores ganadores la noche de las elecciones, ya que predijeron una contundente victoria de Trump. Insiders hablaron con BI sobre el éxito de los mercados de apuestas podría impactar las encuestas tradicionales y los medios de comunicación.
  2. Morgan Stanley se asocia con Carta en vísperas de un auge de las OPI. Carta, que ayuda a las nuevas empresas y a los inversores a realizar un seguimiento de la propiedad de las empresas, remitirá a Morgan Stanley a los clientes que deseen cotizar en bolsa. Jed Finn, el jefe de patrimonio del banco, explicó cómo la asociación beneficiará a ambas partes. en una entrevista exclusiva con BI.
  3. Poner una cifra al impacto de los posibles recortes de impuestos de Trump. Goldman Sachs dijo que las ganancias del S&P 500 podrían aumentar más del 20% en los próximos dos años si Trump reduce los impuestos corporativos como dijo que lo haría. La propuesta arancelaria general del presidente electo podría tener el efecto contrario, pero el profesor de Wharton Jeremy Siegel dijo que Trump está tan centrado en atraer a los inversores podría suavizar su agenda económica para adaptarla mejor a ellos.

3 cosas en tecnología


Logotipo de Youtube distorsionado con imágenes electorales.

Jeff Bottari/Zuffa LLC vía Getty Images; Chelsea Jia Feng/BI



  1. En estas elecciones, las redes sociales mataron a la estrella de televisión. Donald Trump pasó mucho tiempo en la campaña electoral con podcasters como Joe Rogan, que tienen muchos seguidores en YouTube y benefíciese del algoritmo de recomendación de contenidos de la plataforma. Ahora, la administración Trump podría alejarse de la televisión y abrazar aún más los nuevos mediosdado el bromance del presidente electo con el propietario de X, Elon Musk.
  2. Una startup de atención médica de 3 mil millones de dólares acaba de prescindir de algunos fisioterapeutas para recurrir a la IA. Sword Health, que brinda atención virtual para problemas como dolores musculares y articulares, despidió a más de una docena de su fuerza laboral clínica en octubre, dijeron a BI tres ex empleados. Los recortes se produjeron cuando la startup mejora su plataforma de inteligencia artificial para tratar a los pacientes..
  3. El plan comercial de Trump podría ponerle las cosas muy difíciles a Elon Musk. La gigafábrica de Tesla de 10.000 millones de dólares planeada en México se topará con un importante obstáculo si Trump aplica el enorme impuesto que ha discutido imponer a los vehículos importados de México. Musk no está solo, advirtieron los analistas Los aranceles a los automóviles importados de México perjudicarían gravemente a los fabricantes de automóviles estadounidenses..

3 cosas en los negocios


Ilustración fotográfica de una bombilla con el globo terráqueo pintado

Timo Lenzen para BI



  1. Pioneros para un futuro sostenible. Resolver la crisis climática requerirá innovación y acción en industrias como la energía, el transporte, la agricultura y las finanzas. BI identificado 15 empresarios, formuladores de políticas, organizadores y académicos en todo el mundo enfrentando la crisis de frente.
  2. Espere que el precio de estos bienes suba si Trump promulga su plan comercial. Tres ejecutivos ya han advertido que planean aumentar los precios si el presidente electo implementa la agresiva propuesta arancelaria por la que hizo campaña. “Va a ser muy, muy difícil mantener productos asequibles para los estadounidenses.“, dijo un director ejecutivo.
  3. Actores clave en la administración Trump 2.0. Desde la astuta estratega de campaña que será la primera mujer jefa de gabinete presidencial hasta el ex director de ICE elegido para ser el “zar de la frontera”, Estas son las personas que dan forma a las políticas clave. durante los próximos 4 años.

¿Qué está pasando hoy?

  • El juez de Nueva York Juan Merchán se pronuncia sobre las reclamaciones de inmunidad presidencial en el caso de Donald Trump para mantener el silencio. La defensa de Trump ha argumentado que no se debería haber permitido a la fiscalía utilizar algunas pruebas en el caso.
  • Jack Teixeira, el guardia nacional que se declaró culpable de filtrar en línea documentos militares confidenciales sobre Ucrania, es sentenciado en un tribunal de Massachusetts.
  • Home Depot y otras empresas informan ganancias.

El equipo de Insider Today: Dan DeFrancesco, editor adjunto y presentador, en Nueva York. Grace Lett, editora, en Chicago. Ella Hopkins, editora asociada, en Londres. Hallam Bullock, editor senior, en Londres. Amanda Yen, becaria, en Nueva York. Milan Sehmbi, compañero, en Londres.

Continue Reading

Noticias

Introducción a la API de SDK y respuestas de los agentes de Operai

Published

on

Como Openai introdujo lo que todos los demás llaman a los agentes SDK, admitió que usar las capacidades existentes de manera unida “puede ser un desafío, a menudo requerir una amplia iteración rápida y una lógica de orquestación personalizada sin suficiente visibilidad o soporte incorporado”. En resumen, el uso de agentes necesitaba bastante programación, y esa no es la historia que cualquier proveedor de IA quiere vender.

Para devolver la narración a la idea de que gastar dinero en IA eventualmente erradicará la necesidad de un costoso desarrollo de software humano, o de hecho humanos, Openai está implementando una estructura para permitir una orquestación simple.

Primero resumamos cuáles son los problemas. Las tareas de agente implican al menos dos procesos que funcionan individualmente, con una tarea que comienza otra y con los resultados que se informan a un proceso de informes finales al final, con suerte en momentos similares. Los “resultados” también deben estar en un formato conocido (por ejemplo, una oración, un archivo, una imagen, una base de datos), pero esto no es fácil de generalizar. Incluso el camino feliz es un buen equilibrio: lidiar y explicar errores es otro problema. Todos estos son problemas de orquestación familiares. Pero como industria, nadie cree que la orquestación es un problema “resuelto”. Heavy LLM Uso también agrega la necesidad de controlar el uso del token; Las fichas son el nuevo oro negro.

Para comenzar el viaje de orquestación, OpenAI ha agregado algunas API nuevas a su plataforma central. En particular, ha introducido un básico Respuestas API Eso limpia algunos de los supuestos hechos por los agentes de chat.

En el sentido más simple, esto puede capturar la salida:

Puede analizar imágenes en este nivel; y agregue una de las herramientas a continuación. Cuidado: es probable que los nuevos modelos dejen de admitir la API de finalización de chat existente: muchas características nuevas solo admiten la API de nuevas respuestas.

Veamos estas nuevas herramientas. Búsqueda web Permite que un agente rastree la web para tareas simples. El breve script de Python a continuación muestra cómo se le da a un modelo la opción de usar esta herramienta:

El reesponse También contendrá referencias a cualquier artículo citado. Estas consultas se pueden definir por tiempo o ubicación. También puede sopesar el costo, la calidad y la latencia.

Búsqueda de archivos es efectivamente una tienda vectorial alojada. Usted indica que la búsqueda de archivos es una herramienta disponible e identifica su tienda vectorial:

Si es necesario, un agente lo usará. La respuesta citará los documentos utilizados en la respuesta. Puede limitar las respuestas a controlar el uso y la latencia del token. Hay límites para el tamaño total del archivo, los archivos buscados y el tamaño de la tienda Vector. Los tipos de documentos que se pueden buscar (por tipo de archivo) parecen extensos.

El Uso de la computadora La herramienta es interesante:

“La herramienta de uso de la computadora funciona en un bucle continuo. Envía acciones de la computadora, como click(x,y) o type(text)que su código se ejecuta en un entorno de computadora o navegador y luego devuelve capturas de pantalla de los resultados al modelo “.

Parece que está fingiendo ser selenio, la herramienta que usamos para probar las interfaces web a través de scripts. Obviamente, esto reconoce que todavía no estamos en el AIS solo hablando con otro mundo de AIS todavía. Pero al menos es un guiño a la idea de que no todo es un sitio web.

Probar agentes

Usaré los ejemplos de Python (definitivamente es un producto de Python-First, pero los documentos también muestran el script equivalente de JavaScript). Hemos ejecutado Python varias veces en mis publicaciones, pero en mi nuevo MacBook, solo verificaré que tenga Python instalado:

El resultado fue que python@3.13 3.13.2 ya está instalado y actualizado.

Mi pip también está allí (como PIP3).

Así que ahora puedo instalar los paquetes Operai:

Ah, recuerdo esto. Necesitamos un virtual:

Luego activo el virtual:

Y estamos listos para proceder.

Ahora, por supuesto, deberá usar y establecer un OpenAI_API_KEY. Me creé una nueva clave en la página de mi cuenta y establecí el opanai_api_key (no te preocupes, es mucho más largo que esto):

Y tienes que asegurarte de tener un poco de oro negro, me refiero a las fichas. He presentado algunas de las formas de evitar pagar OpenAi usando modelos locales, pero para esta publicación asumiré que está pagando por los tokens.

Como es tradicional, comencemos con una verificación de que los conceptos básicos anteriores están en su lugar a través de una simple solicitud con lo siguiente Haiku.py:

Y obtenemos una buena respuesta:

(Un buen haiku tradicional debería mencionar las temporadas que pasan, pero no es por eso que estamos aquí). Por lo general, también verificaría mi equilibrio, pero no ha sido perturbado.

Nido de agentes

Como puede ver, ya hemos usado un agente. No es que interviniera de ninguna manera, pero llegaremos a eso.

OpenAI ha simplificado el proceso de orquestación con algunos términos simples. A manos libres es una introducción al mundo asincrónico, donde algo tiene que esperar algo más. Desglosemos su ejemplo, que ejecutaré como hola.py:

Esto muestra dos cosas básicas. En primer lugar, la configuración de roles para los agentes en inglés simple a los que estamos acostumbrados, pero también estableciendo la interacción entre los agentes. El agente de transferencia mantiene una lista de agentes disponibles para responder respuestas.

Ahora, esto implica que mi solicitud alemana no obtendrá la respuesta correcta. Entonces, si cambiamos la consulta dentro hola.py:

Y ejecutar nuestro nido de agentes:

Entonces, aunque OpenAi no tuvo problemas para traducir alemán, el agente de triaje no tenía un agente de idiomas relevante a la mano, por lo que hizo el trabajo y respondió en inglés. Es poco probable que nuestros clientes alemanes estén demasiado molestos, pero podemos mejorar.

Entonces, si finalmente agregamos el agente alemán y lo ponemos en la lista de transferencias a hola.py:

Podemos intentar esa solicitud alemana nuevamente:

Esta vez se llama al agente correcto y responde. Nuestros clientes alemanes ahora están más felices: ¡Ausgezeichnet! No olvides que mi terminal de urdimbre también te está dando los tiempos para estas respuestas.

Conclusión

Primero observamos el bucle de respuesta, que puede incluir más llamadas de herramientas. Si la respuesta tiene una transferencia, establecemos el agente en el nuevo agente y volvemos al inicio.

Hay opciones de registro debajo de esto, pero como de costumbre, OpenAI está dando una API de alto nivel en esta etapa, lo que debería fomentar la experimentación sin la necesidad de involucrarse demasiado con la orquestación.

Si bien he introducido agentes aquí, en publicaciones posteriores, veré más partes del SDK.

Vía Sahin Ahmed


Grupo Creado con boceto.

Continue Reading

Noticias

Las habilidades de varios idiomas de Gemini Live me han volado los calcetines

Published

on

Rita El Khoury / Android Authority

Géminis todavía está lejos de ser perfecto, pero lentamente se cultiva en mí. Específicamente, sin embargo, es el modo de conversación en vivo el que más me atrae porque es todo lo que siempre quise del Asistente de Google, y algo más. Puedo hablar con la IA, interrumpirlo, pedirle que lo repita, corregirlo y pedir más detalles, todo en una conversación muy natural y relajada.

Pero si eres alguien como yo y estás acostumbrado a hablar tres idiomas al mismo tiempo, a menudo en la misma oración, y tu cerebro funciona así de forma predeterminada, lo que hace que sea difícil mantener una conversación completa en un idioma, entonces probablemente hayas estado mordiendo en los bits, esperando que Gemini vive para apoyar varios idiomas. Con la caída del píxel de marzo, la función ahora está aquí, y oh. Mi. Cielos. ¿Es mucho mejor de lo que esperaba o qué?

¿Has intentado hablar con Gemini en varios idiomas?

2 votos

Más intuitivo y confiable que el varios idiomas de Google Assistant

Cuando Google lo anunció, pensé que el soporte de varios idiomas en Géminis Live significaba que podría tener una conversación en inglés y luego otra conversación en francés sin cambiar manualmente el idioma. Este ha sido el caso con el Asistente de Google durante años, excepto que tuve que configurar manualmente exactamente qué idiomas quería usar en el Asistente, y nunca funcionó tan bien como se esperaba.

Con Gemini Live, como puede ver en el video de arriba, ese no es el caso:

  • No tuve que elegir el idioma cada vez; Acabo de comenzar una nueva charla, y me entendió.
  • Fuera de la caja, funciona con todos los idiomas compatibles con Live. No tengo que limitarme a solo dos como con el asistente.
  • Aunque tuve algunos silencios incómodos de Géminis y tuve que repetir algunas oraciones, la tasa de éxito de la IA para reconocer diferentes idiomas ha superado el 90% en mis pruebas, y eso es más de lo que el asistente podría soñar.

Hablo tres idiomas casi nativamente (inglés, francés, árabe) y puedo entender y hablar (con un acento grueso) algunos español, italiano y alemán. Entonces, puse esto a prueba e probé diferentes chats con Gemini en vivo en todo esto. Me consiguió todos mis acentos nativos y gruesos cada vez.

El único con el que tuve problemas es, por extraño que parezca, mi lengua materna árabe. Podría hablar en árabe formal escrito, pero eso no es algo natural para mí. En cambio, cuando hablo, está en el dialecto libanés informal. Géminis, sin embargo, parece hablar una mezcla entre un dialecto levantino informal no descriptivo y el árabe formal escrito. Culpo esto a los millones de dialectos regionales y cuán complicados y ampliamente diferentes son, pero incluso entonces, la tasa de éxito fue más alta de lo que esperaba o había experimentado con Asistente en árabe.

Todo esto ya fue una victoria, pero luego decidí avanzar más. Y ahí es donde Gemini vive en sentido figurado me voló los calcetines.

¡Las habilidades de varios idiomas de Gemini Live funcionan a mitad de chat y a mitad de oración!

Google Géminis Multilguages ​​2

Rita El Khoury / Android Authority

Como tenía una experiencia tan positiva con diferentes chats en diferentes idiomas, quería ver si Gemini podía manejarme cambiando idiomas a mitad de chat. Así que comencé una simple discusión en inglés, luego cambié al francés, árabe, español, italiano, alemán, y me siguió a través de los seis, nunca sudando. Puedes verlo en el video a continuación.

Mirando hacia atrás en la transcripción, pude ver que realmente entendía cada palabra que dije en cada idioma y cambió sus respuestas en consecuencia.

Pero no pude parar allí, ¿verdad? Ahora, tenía curiosidad por ver si podía manejar el cambio a mitad de la oración. Así que comencé una oración en inglés, la terminé en francés y esperé con la respiración con la respuesta. ¡Y lo consiguió! Probé para otro lado. ¡Éxito!

Honestamente, en este punto, estaba gritando internamente: “¡Hechicería!” Después de vivir con el Asistente de Google durante 10 años y ver que lucha saber la diferencia entre “Bonjour” y “Bone Joke”, había perdido toda esperanza en los algoritmos de reconocimiento de voz y AIS. Pero Géminis Live restauró esa fe. Compruébalo en acción:

Comencé a mezclarme en árabe y español y seguí cambiando a mitad de la oración, y obtuvo todos ellos. A menudo respondía en el primer idioma con el que comencé mi oración, pero su respuesta era una prueba de que entendía toda la pregunta, no solo la primera parte. Incluso abrió mi herida sobre la última falla de Randal Kolo Muani en la última Copa Mundial de la FIFA y me burló de mí sobre la excelente salvación de Emiliano Martínez. Oh, bueno.

Google Gemini Multilguages ​​4

Rita El Khoury / Android Authority

Más allá de eso, quería intentar desestabilizar a Gemini en vivo aún más y llevarlo a su límite. Entonces, comencé a hablar como normalmente lo hago con mi familia y amigos, mezclando inglés, francés y árabe en la misma oración: la verdadera forma de hablar libanese, por así decirlo. Para mi sorpresa absoluta de mordisco, recibió a nuestro famoso “Hola, Kifak, CA VA?” Y siguió bien (aparte de la incómoda limitación de acento árabe que mencioné anteriormente).

¿Una palabra en un idioma diferente en medio de toda una oración en inglés? Ningún problema

Finalmente, simplemente fui por el ejemplo más extremo que se me ocurrió: hablar una oración completa en un idioma pero poner una palabra en otra. Para ser justos, así es como hablo con mi esposo el 90% del tiempo. Si estamos usando inglés, algunas palabras nos eludirán, y en el medio de nuestro flujo, solo usamos la palabra francesa o árabe. O si hablamos árabe o francés, intercalamos algunas palabras en los otros idiomas sin pensarlo mucho. Es cómo nuestros cerebros funcionan normalmente, y es por eso que nunca me siento muy cómodo hablando con asistentes de voz porque tengo que forzarme a usar un idioma. Pero Géminis Live lo consiguió.

Le pregunté: “Se llama una planta habaq En árabe, ¿qué es eso en inglés? Me dijo que es Basilio. cibuleta ¿en Inglés?” Dijo cebollino. roquettes“Mientras rodaba mi R, entendía que estaba hablando de hojas de cohetes/rúcula. Y finalmente, cuando pregunté qué”Jozt El Tib“Estaba en inglés, dijo correctamente que es una nuez moscada (sí, estaba en mi cocina e intentaba obtener ideas para las pruebas de Géminis).

Google Gemini Multilguages ​​1

Rita El Khoury / Android Authority

Mirando hacia atrás en el registro de chat durante todo esto, la transcripción no es 100% precisa o en el idioma correcto. Está “Haba” y “Rocket” y “Rose to Tibe”, mientras que “Ciboulette” ni siquiera está escrito de ninguna manera. Pero la respuesta demuestra que Gemini Live recibió la palabra correcta en el idioma correcto cada vez.

Y estos no son solo casos extremos. Todas son preguntas que realmente me he hecho o usé el traductor de Google en un momento de mi vida. No puedes creer cuántas veces quiero buscar recetas con calabacín y todo lo que mi cerebro quiere escribir es “calabacín recetas “. Así que solía traducirlo primero, recuerda que es calabacín, luego regresa para hacer mi búsqueda. sfouf (Curcuma Cake) Receta con 3e2de safra (curcuma) y busque lugares para comprar granos para la recomendación de mi padre ba2le (Verde) Planta sin sudar.

Regresé a mis pruebas e intenté las mismas preguntas con el modo de chat de voz de Chatgpt. Mientras consiguió los franceses roquettes y cibuletafalló con el árabe habaq y Jozt El Tibdiciéndome que son fenogrecidos y cominos. Oof. No querría fenogreco en mi pesto.

Después de todas estas pruebas, no puedo, pero no puedo inclinar mi sombrero al equipo de Géminis por clavar el soporte de varios idiomas y hacer que funcione tan impresionantemente bien desde el primer momento. Cada vez que lo empujaba más, me sorprendía ver que todavía me mantenía al día. Este es el primer agente de IA que me entiende de la forma en que hablo naturalmente, por lo que ya no tengo que recordar la palabra exacta en inglés si quiero continuar una conversación con ella. Todavía tengo que transformar un poco mi acento árabe para que me entienda, pero ese es un pequeño precio a pagar por un agente de voz de IA tan versátil. Sin embargo, una vez que comprenda el dialecto libanés como es, será una perfección absoluta.

Continue Reading

Trending