Connect with us

Noticias

3 Genius Side Hustles, puede comenzar con el operador de OpenAi en este momento

Published

on

Zdnet

Operai anunció recientemente operador, un agente de IA diseñado para realizar tareas en la web.

Después de probarlo (sí, pagué los $ 200 dólares, pero, lo que es más importante, mantuve la suscripción🤯), este es un cambio de juego, pero no por la razón que piensas.

Este artículo probablemente me meterá en problemas con mi socio comercial.

También: ¿AI matará la creatividad y destruirá la innovación humana? Aquí está la verdad inquietante

Estoy a punto de fruncirme a mí mismo para tu beneficio. 😩

Te diré la salsa secreta detrás de cómo nuestro negocio ECOM genera millones en ingresos y cómo el operador puede ayudar.

En este artículo, me romperé:

  • Qué es el operador y por qué importa
  • Lo bueno, lo malo y lo feo de usarlo
  • Tres formas en que puede convertir al operador en un ajetreo lateral

Toma un bolígrafo y papel si te gustan este tipo de cosas. Querrás tomar notas. 🧐

Introducción rápida

Para entender por qué esto cambia el juego, primero, debes entender quién soy y qué hago para vivir.

Si eres nuevo en mi trabajo, mi nombre es Láserpero no dudes en llamarme Les.

Soy un fundador con una salida exitosa en mi haber. En estos días, soy el presidente ejecutivo de un grupo de marcas ECOM, pero en mi esencia, soy un galardonado vendedor de rendimiento. 🤓☝️

También: de cero a millones? Cómo la gente regular está cobrando la IA

No hace falta decir que los datos y las ideas son mi atasco. Operamos más como una compañía de datos que una marca ECOM. Nuestra salsa secreta? Emparejamiento de datos e ideas con ideas que generan ingresos.

Si le gusta aprovechar la IA o la tecnología emergente para ayudar a su flujo de trabajo o generar ingresos, Mira mi boletín gratuito, Sin pelusa solo hechos. Desgloso lo que funciona en el mundo de la IA junto con ideas procesables para implementar … sin pelusa, solo hechos (vea lo que hice allí).

Pero suficiente sobre mí. ¡Tengo que decirte por qué el operador cambia de juego! 🤫

¿Qué es el operador y por qué es un cambio de juego?

El operador ayuda a los usuarios profesionales con sede en EE. UU. Realizar actividades de navegador, como completar formularios y ordenar comestibles; Aparentemente, incluso puede ayudarlo a crear memes. 💃

Interactúa con páginas web haciendo clic, escribiendo y desplazándose como un humano.

Un nuevo operador de potencia de modelo AI llamado computadora usando Agent (CUA), combinado con la visión y las capacidades de GPT-4 para el razonamiento avanzado. Esto es lo que le permite comprender lo que está sucediendo en un sitio web.

Ahora que están atrapados, déjame compartir las oportunidades. 🤗

Además: la compañía de IA de mil millones de dólares de la que no está hablando a nadie, y por qué debería importarle

El precio es la mayor queja entre los usuarios. A $ 200 por mes, es un salto significativo del plan de $ 20, y muchos no ven suficiente valor para que la actualización valga la pena, lo cual es un punto válido.

Pero en lugar de compararlo con el plan más barato, lo miro en términos de tiempo y recursos que puede ahorrar.

Una gran parte de mi trabajo diario es validar ideas, visitar diferentes sitios web, mirar tendencias y documentarlas. Si bien este no es el mejor uso del tiempo, todavía es necesario y tiene un costo, ya sea que lo hago yo mismo o contrato a un asistente para que lo haga por mí.

$ 200 es mucho pan, especialmente en esta economía, pero la alternativa podría costar miles de dólares por mes y decenas de miles por año. 🤧

El operador permite a los propietarios y profesionales de pequeñas empresas automatizar sin contratar o pagar a un desarrollador para crear una herramienta interna.

Claro, hay herramientas en línea que pueden realizar funciones similares, pero esa es otra herramienta para aprender. Operai ya es parte de mi flujo de trabajo, por lo que tener todo en un solo lugar es beneficioso.

También: ¿tienes un misterio de genealogía? Cómo usé AI para resolver un rompecabezas familiar

El operador es una gran herramienta para manejar las tareas mundanas que requieren mucho tiempo que no quiero hacer.

¿Y por $ 200 dólares? 🤔

Pffft. Tener en eso, operador.

Avísame cuando hayas terminado o si me necesitas.

La mayor limitación puede no ser el operador en sí, sino nuestra imaginación al usarla.

Cómo uso el operador

Ah, sí, la razón por la cual mi compañero de negocio puede vencer a mi conocimiento.

Primero, necesito explicar el núcleo de cualquier negocio. ☝️

La mayoría de las empresas operan en algún tipo de arbitraje, ya sea que esté obteniendo un producto a un costo más bajo y venderlo a un precio más alto, o ofrecer un servicio donde el costo de entregar es más bajo que el precio cobrado.

Ya sea que esté vendiendo un producto o servicio, el núcleo de lo que está sucediendo es el mismo.

La clave es crear valor al administrar las diferencias de costos entre los mercados.

También: ¿No quieres pagar por Chatgpt Deep Investigation? Prueba esta alternativa gratuita de código abierto

Ahora que entendemos eso, profundicemos en cómo construimos negocios. 🧐

Todos ven a Amazon como un lugar para comprar, pero lo consideramos un lugar para validar las ideas de productos.

Digamos que tenemos una idea para una vela divertida. Primero vamos a Amazon para ver si el concepto ya existe. Si es así, documentamos cosas como:

  • Nombre del producto
  • Precio
  • Rango de ventas
LM-Operator-Project

Lester Mapp

Esta información es crítica. El arbitraje luego obtiene ese producto y lo introduce a nuestra audiencia.

Consejo de bonificación: No solo copiamos. Observamos cómo se puede mejorar un producto y ofrecemos a nuestra audiencia la versión nueva y mejorada en nuestro sitio web.

¿Tener sentido?

Ahora que tenemos eso fuera del camino, permítanme explicar cómo usamos el operador. 😎

Como mencioné, parte del trabajo es un desplazamiento interminable, mirando y mirando. Instruí al operador para que me hiciera la investigación de mi producto.

Aquí está el mensaje exacto que utilicé:

“Necesito que vayas a www.amazon.com y buscar ‘velas divertidas’. Entonces necesito que me digas el precio y el nombre de cada listado. Luego, necesito que me digas el rango de ventas para las primeras 48 listados de productos “.

Después de un captcha y un poco de reflexión con el aviso, obtuve la salida exacta que necesitaba.

El operador pudo manejar el papel más crítico en nuestro negocio, que es la investigación de productos.

También: ¿Chatgpt Plus o Pro vale la pena? Así es como se comparan con la versión gratuita

Liberó mi tiempo y me permitió concentrarme en cosas como hablar con los clientes. 👨‍💻

A nadie le gusta hacer este tipo de tareas, ya que son monótonas y tediosas. Es todo el “ous-es” en los que se te ocurre.

Pero es vital para mantenerse a la vanguardia.

El operador lo hizo de forma autónoma en su mayor parte.

Como dije, es un cambio de juego.Lo bueno, lo malo y el tipo de feo

El bien 👍

  • Me gusta el hecho de que puedo operar de forma independiente sin tener que esperar a que un compañero de trabajo o un desarrollador ayude. Si eres como yo, sabes exactamente lo que quiero decir con eso. Prefiero lavarme los ojos con blanqueador que esperar a alguien.
  • También me encanta que pueda hablar, y parece. No tengo que escribir un resumen elegante o enviar diez mil millones de correos electrónicos para obtener lo que quiero.
  • Me encanta el hecho de que está centralizado. No necesito diez aplicaciones e integraciones para hacer una cosa. Permito que inicie sesión en cosas como Google Sheets y copie la información.

Lo malo 👎

  • No está todo el camino. Es ai. Hace cosas extrañas de IA, como alucinar y proporcionar información incorrecta y sin sentido. Me mantengo paciente y lo sigo presionando.
  • Es lento, pero aún más rápido que yo para hacer el trabajo. Honestamente, ni siquiera puedo llamar a eso una queja real.
  • Me estaba pidiendo confirmación demasiado. Esto significaba que el operador se detendría y se sentaría allí esperando mi opinión mientras yo estaba fuera de la vida de mi mejor vida. Tiempo perdido. Para combatir esto, encendí las notificaciones para ver si eso mejora el tiempo entre las confirmaciones. Te haré saber cómo va.

El un poco feo 🥴

Claro, hay fallas y cosas que podrían ser mejores, pero en este momento, el verdadero problema soy yo. Ojalá pudiera pensar en formas aún más creativas de usarlo.

Para ser claros, no estoy hablando de cosas cotidianas como las compras de comestibles. Esa es una tabla.

Quiero decir, ¿cómo obtengo esto a 10 veces mi negocio mientras estoy de vacaciones? 🙃

Cómo ganar dinero con el operador Operai

Con cualquier tecnología emergente, siempre habrá un grupo de personas que:

  • Necesita ayuda para implementar
  • No tengo tiempo para hacerlo ellos mismos

Existe el potencial de construir un negocio en torno a cualquiera de estos escenarios. 🤑

También: La investigación profunda de ChatGPT acaba de identificar 20 empleos que reemplazará. ¿Está el tuyo en la lista?

En mi humilde opinión, este es un gran lugar para comenzar, especialmente si eres un motor temprano, ya que podría posicionarte como el recurso de referencia.

Dicho esto, aquí hay algunas ideas más sobre cómo puede usar el operador para generar ingresos.

1. AI AI AUTOMACIÓN COMO SERVICIO

Ofrezca servicios de automatización a empresas que deseen optimizar tareas repetitivas como entrada de datos, respuestas por correo electrónico o atención al cliente.

2. Generación de leads y automatización de ventas con IA

Use el operador para enviar mensajes personalizados a posibles clientes potenciales en LinkedIn sobre su producto o servicio.

3. Comercio electrónico con IA

Use el operador para enumerar, actualizar y optimizar automáticamente listados de productos en eBay, Amazon o Shopify.

Estas son solo algunas ideas, pero la mayor oportunidad es usar el operador para mejorar lo que ya estamos haciendo.

En lugar de buscar una nueva oportunidad mágica, el mejor movimiento es integrarlo en su flujo de trabajo actual.

El operador es una herramienta que nos hace más eficientes y brinda la oportunidad de recuperar parte de nuestro tiempo.

La verdadera oportunidad es mirar dentro y preguntarse, ¿qué puede ayudarme a AI a hacer? 🤔

Como mencioné anteriormente, realmente se reduce a su imaginación y cómo la usa en su flujo de trabajo existente o incluso cómo crea uno nuevo.

Los críticos no están equivocados sobre sus limitaciones, pero la herramienta sigue siendo increíblemente poderosa. Desbloquear su máximo potencial solo requiere un poco de creatividad y una voluntad de trabajar en torno a sus limitaciones.

Escribir la tecnología completamente porque no está allí todavía no es prudente. 😞

Mis dos centavos

Entonces, ¿vale la pena el operador?

Como la mayoría de las cosas en la vida, depende. 🫤

El precio de $ 200 es relativo y depende de cómo lo use.

Si lo está utilizando para reservar su Airbnb o algo así, tengo dificultades para encontrar alguna razón para justificar el pago de $ 200 por el lujo de no hacerlo usted mismo (a menos que este sea su trabajo).

Puedo ver un futuro donde el operador, cuando se usa de manera efectiva, se convierte en uno de los mejores activos comerciales en su kit de herramientas mediante la automatización de tareas repetitivas.

Sin embargo, no es una solución mágica. Todavía necesita construir un negocio sólido resolviendo problemas reales y manteniendo una economía unitaria sólida.

También: las tareas laborales que las personas usan Claude Ai para la mayoría, según antrópico

No estamos en un lugar donde la IA pueda hacer todo por nosotros. Un enfoque de hacer y yo sería la mejor manera de verlo.

Dicho todo esto, soy optimista en el operador como una herramienta comercial y espero ver a dónde va.

😇 Espero que esto ayude; Te estoy apoyando.

Por cierto, si desea obtener más información sobre cómo aprovechar la IA o la tecnología emergente para optimizar su flujo de trabajo o generar ingresos, consulte mi boletín gratuito, Sin pelusa solo hechos. Desgloso lo que funciona en el mundo de la IA, junto con ideas procesables que puede implementar y la charla ocasional de PEP. Si esto suena como tu mermelada y quieres ser mejoras para siempre Haga clic aquí para registrarse. Es totalmente gratis. 🤗

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Hollywood a Trump: No dejes que Operai y Google entrenen en nuestro trabajo con derechos de autor

Published

on

La lucha entre los creadores y los titanes tecnológicos de IA por la ley de derechos de autor y la licencia se está calentando. En una carta presentada a la Oficina de Política de Ciencia y Tecnología de la Administración Trump el 15 de marzo, más de 400 actores, escritores y directores pidieron al gobierno que defendiera la ley actual de derechos de autor.

Los firmantes incluyen a Paul McCartney, Guillermo del Toro, Ava Duvernay, Cynthia Erivo, Phoebe Waller-Bridge, Ayo Edebiri, Chris Rock y Mark Ruffalo. La carta solicita específicamente al gobierno que no otorgue excepciones de uso justo a las compañías tecnológicas que capacitan la IA.

El uso justo es un concepto fundamental en la ley de derechos de autor que brinda a las personas una excepción para usar contenido protegido, incluso si no son el titular de los derechos de autor, en casos limitados y específicos. Anteriormente, las compañías de IA, hambrientas por el contenido generado por los humanos para capacitar y mejorar sus modelos de IA, han necesitado pagar a los editores y catálogos de contenido por el acceso a ese material. Una excepción de uso justo facilitaría que las compañías tecnológicas accedan a contenido sin obstáculos legales.

Google y Openai propusieron cambios similares a la ley actual de derechos de autor en sus propuestas para el plan de acción de IA de la administración. Google escribió que tales excepciones le permiten “evitar negociaciones a menudo altamente impredecibles, desequilibradas y largas con los titulares de datos durante el desarrollo del modelo”. Operai escribió que las protecciones de uso justo para la IA son necesarias para proteger la seguridad nacional estadounidense.

Parte del reciente impulso gubernamental alrededor de la IA es una preocupación por la pérdida de la posición global y una ventaja tecnológica sobre el desarrollo de IA a adversarios como China. La IA china, como el rival de chatgpt Deepseek, continúa procesando, pero las preocupaciones abundan sobre su seguridad y falta de barandillas.

En otras palabras, compañías tecnológicas como Google y OpenAI, cada una valorada por la capitalización de mercado en los cientos de miles de millones y billones de dólares, no quieren pasar por el proceso legal establecido y pagar los derechos del contenido que necesitan para que su AIS sea competitivo con los desarrollados por China. Y quieren que la administración Trump codifique las protecciones para ellos como parte de su plan de acción de IA.

Los firmantes de Hollywood se oponen firmemente a la posibilidad de tal reescritura de la ley de derechos de autor. “Estados Unidos no se convirtió en una potencia cultural global por accidente”, dice la carta. “Nuestro éxito se deriva directamente de nuestro respeto fundamental por la IP y los derechos de autor que recompensa la toma de riesgos creativos por estadounidenses talentosos y trabajadores de todos los estados y territorio”.

La Oficina de Derechos de Autor de EE. UU. Ha estado desarrollando orientación sobre cómo manejar los reclamos de derechos de autor por contenido generado por IA. Pero la gente ha estado preocupada durante años, e incluso demandó, cómo los modelos de IA están entrenados de una manera que potencialmente viola los derechos de los titulares de derechos de autor. El doble huelga en el verano de 2023 por miembros del Guild de Escritores de América y el Gremio de Actores de Screen y la Federación Americana de Artistas de Televisión y Radio, o Sag-Aftra, incluyó a la IA como una de sus principales preocupaciones. Ni Openai ni Google han compartido exactamente qué contenido constituye sus bases de datos de capacitación para ChatGPT y Gemini.

La ecuación de derechos de autor se vuelve aún más complicada, ya que sabemos al menos una compañía que recibió un reclamo de derechos de autor para una imagen cuya IA genera cada parte. Deja espacio para la incertidumbre en cada lado del desastre que es los derechos de autor y la IA.

La administración Trump y la IA

Hasta este punto, no ha habido un progreso mucho significativo en la supervisión del gobierno o la legislación que regula cómo los gigantes tecnológicos como OpenAI y Google desarrollan IA. El ex presidente Biden consiguió que muchas de las principales compañías tecnológicas se comprometieran voluntariamente a desarrollar AI de manera responsable e intentó promulgar algunas barandillas en torno al desarrollo de la IA a través de la orden ejecutiva. Pero a las pocas horas de ser inaugurado, Trump retrocedió la orden ejecutiva de AI de Biden con una de las suyas.

En su propia orden ejecutiva sobre IA, Trump dijo que quiere “mantener y mejorar el dominio global de IA de Estados Unidos”. El Plan de Acción de AI es cómo planea promulgar su versión de la política tecnológica. El vicepresidente Vance presentó el plan, y más ampliamente la opinión de la administración sobre la tecnología, en una cumbre internacional sobre IA en enero.

Vance dijo: “Cuando conferencias como esta se convierten en discutir una tecnología de vanguardia, a menudo, creo que nuestra respuesta es ser demasiado consciente de sí misma, demasiado requerida por el riesgo. Pero nunca he encontrado un gran avance en la tecnología que claramente nos llama a hacer precisamente lo contrario”.

Además del llamado a los comentarios, una orden ejecutiva de enero del presidente Trump pidió que American AI estuviera “libre de sesgos ideológicos o agendas sociales diseñadas”.

Al mismo tiempo, los líderes tecnológicos como Sundar Pichai de Google y Sam Altman de Openai se han acercado a la nueva administración. Altman donó un millón de dólares de su propio dinero al Fondo de inauguración de Trump, y Google como compañía donó lo mismo. Altman y Pichai obtuvieron asientos de primera fila para la ceremonia de juramentación, junto con Mark Zuckerberg de Meta, Elon Musk de X y Jeff Bezos de Amazon. Es probable que los ejecutivos esperen que llegar al lado bueno de Trump los ayude a allanar el camino para el futuro de su empresa tecnológica, incluso si, en este caso, molestaría décadas de ley establecida de derechos de autor.

Muchos grupos de personas, no solo creadores, están preocupados de que el desarrollo y el uso no regulado de la IA puedan ser desastrosos.

¿Qué viene después para los derechos de autor y la IA?

Se espera que la Oficina de Derechos de Autor de los Estados Unidos publique un informe más sobre AI, específicamente sobre “implicaciones legales de capacitar a los modelos de IA en trabajos con derechos de autor, consideraciones de licencia y la asignación de cualquier posible responsabilidad”.

Mientras tanto, una serie de demandas activas podrían establecer precedentes importantes para la rama judicial. Thomson Reuters acaba de ganar su caso que dijo que una compañía de IA no tenía un caso de uso justo para usar su contenido para construir IA. La legislación como la Ley No Fakes también se está abriendo camino a través del Congreso, pero no está claro qué tipo de legislación futura de IA tendrá.

Para obtener más información, consulte cómo AI y Art Clash en SXSW y por qué la promesa anti-AI de una compañía resuena con los creadores.

Continue Reading

Noticias

Introducción a la API de SDK y respuestas de los agentes de Operai

Published

on

Como Openai introdujo lo que todos los demás llaman a los agentes SDK, admitió que usar las capacidades existentes de manera unida “puede ser un desafío, a menudo requerir una amplia iteración rápida y una lógica de orquestación personalizada sin suficiente visibilidad o soporte incorporado”. En resumen, el uso de agentes necesitaba bastante programación, y esa no es la historia que cualquier proveedor de IA quiere vender.

Para devolver la narración a la idea de que gastar dinero en IA eventualmente erradicará la necesidad de un costoso desarrollo de software humano, o de hecho humanos, Openai está implementando una estructura para permitir una orquestación simple.

Primero resumamos cuáles son los problemas. Las tareas de agente implican al menos dos procesos que funcionan individualmente, con una tarea que comienza otra y con los resultados que se informan a un proceso de informes finales al final, con suerte en momentos similares. Los “resultados” también deben estar en un formato conocido (por ejemplo, una oración, un archivo, una imagen, una base de datos), pero esto no es fácil de generalizar. Incluso el camino feliz es un buen equilibrio: lidiar y explicar errores es otro problema. Todos estos son problemas de orquestación familiares. Pero como industria, nadie cree que la orquestación es un problema “resuelto”. Heavy LLM Uso también agrega la necesidad de controlar el uso del token; Las fichas son el nuevo oro negro.

Para comenzar el viaje de orquestación, OpenAI ha agregado algunas API nuevas a su plataforma central. En particular, ha introducido un básico Respuestas API Eso limpia algunos de los supuestos hechos por los agentes de chat.

En el sentido más simple, esto puede capturar la salida:

Puede analizar imágenes en este nivel; y agregue una de las herramientas a continuación. Cuidado: es probable que los nuevos modelos dejen de admitir la API de finalización de chat existente: muchas características nuevas solo admiten la API de nuevas respuestas.

Veamos estas nuevas herramientas. Búsqueda web Permite que un agente rastree la web para tareas simples. El breve script de Python a continuación muestra cómo se le da a un modelo la opción de usar esta herramienta:

El reesponse También contendrá referencias a cualquier artículo citado. Estas consultas se pueden definir por tiempo o ubicación. También puede sopesar el costo, la calidad y la latencia.

Búsqueda de archivos es efectivamente una tienda vectorial alojada. Usted indica que la búsqueda de archivos es una herramienta disponible e identifica su tienda vectorial:

Si es necesario, un agente lo usará. La respuesta citará los documentos utilizados en la respuesta. Puede limitar las respuestas a controlar el uso y la latencia del token. Hay límites para el tamaño total del archivo, los archivos buscados y el tamaño de la tienda Vector. Los tipos de documentos que se pueden buscar (por tipo de archivo) parecen extensos.

El Uso de la computadora La herramienta es interesante:

“La herramienta de uso de la computadora funciona en un bucle continuo. Envía acciones de la computadora, como click(x,y) o type(text)que su código se ejecuta en un entorno de computadora o navegador y luego devuelve capturas de pantalla de los resultados al modelo “.

Parece que está fingiendo ser selenio, la herramienta que usamos para probar las interfaces web a través de scripts. Obviamente, esto reconoce que todavía no estamos en el AIS solo hablando con otro mundo de AIS todavía. Pero al menos es un guiño a la idea de que no todo es un sitio web.

Probar agentes

Usaré los ejemplos de Python (definitivamente es un producto de Python-First, pero los documentos también muestran el script equivalente de JavaScript). Hemos ejecutado Python varias veces en mis publicaciones, pero en mi nuevo MacBook, solo verificaré que tenga Python instalado:

El resultado fue que python@3.13 3.13.2 ya está instalado y actualizado.

Mi pip también está allí (como PIP3).

Así que ahora puedo instalar los paquetes Operai:

Ah, recuerdo esto. Necesitamos un virtual:

Luego activo el virtual:

Y estamos listos para proceder.

Ahora, por supuesto, deberá usar y establecer un OpenAI_API_KEY. Me creé una nueva clave en la página de mi cuenta y establecí el opanai_api_key (no te preocupes, es mucho más largo que esto):

Y tienes que asegurarte de tener un poco de oro negro, me refiero a las fichas. He presentado algunas de las formas de evitar pagar OpenAi usando modelos locales, pero para esta publicación asumiré que está pagando por los tokens.

Como es tradicional, comencemos con una verificación de que los conceptos básicos anteriores están en su lugar a través de una simple solicitud con lo siguiente Haiku.py:

Y obtenemos una buena respuesta:

(Un buen haiku tradicional debería mencionar las temporadas que pasan, pero no es por eso que estamos aquí). Por lo general, también verificaría mi equilibrio, pero no ha sido perturbado.

Nido de agentes

Como puede ver, ya hemos usado un agente. No es que interviniera de ninguna manera, pero llegaremos a eso.

OpenAI ha simplificado el proceso de orquestación con algunos términos simples. A manos libres es una introducción al mundo asincrónico, donde algo tiene que esperar algo más. Desglosemos su ejemplo, que ejecutaré como hola.py:

Esto muestra dos cosas básicas. En primer lugar, la configuración de roles para los agentes en inglés simple a los que estamos acostumbrados, pero también estableciendo la interacción entre los agentes. El agente de transferencia mantiene una lista de agentes disponibles para responder respuestas.

Ahora, esto implica que mi solicitud alemana no obtendrá la respuesta correcta. Entonces, si cambiamos la consulta dentro hola.py:

Y ejecutar nuestro nido de agentes:

Entonces, aunque OpenAi no tuvo problemas para traducir alemán, el agente de triaje no tenía un agente de idiomas relevante a la mano, por lo que hizo el trabajo y respondió en inglés. Es poco probable que nuestros clientes alemanes estén demasiado molestos, pero podemos mejorar.

Entonces, si finalmente agregamos el agente alemán y lo ponemos en la lista de transferencias a hola.py:

Podemos intentar esa solicitud alemana nuevamente:

Esta vez se llama al agente correcto y responde. Nuestros clientes alemanes ahora están más felices: ¡Ausgezeichnet! No olvides que mi terminal de urdimbre también te está dando los tiempos para estas respuestas.

Conclusión

Primero observamos el bucle de respuesta, que puede incluir más llamadas de herramientas. Si la respuesta tiene una transferencia, establecemos el agente en el nuevo agente y volvemos al inicio.

Hay opciones de registro debajo de esto, pero como de costumbre, OpenAI está dando una API de alto nivel en esta etapa, lo que debería fomentar la experimentación sin la necesidad de involucrarse demasiado con la orquestación.

Si bien he introducido agentes aquí, en publicaciones posteriores, veré más partes del SDK.

Vía Sahin Ahmed


Grupo Creado con boceto.

Continue Reading

Noticias

Las habilidades de varios idiomas de Gemini Live me han volado los calcetines

Published

on

Rita El Khoury / Android Authority

Géminis todavía está lejos de ser perfecto, pero lentamente se cultiva en mí. Específicamente, sin embargo, es el modo de conversación en vivo el que más me atrae porque es todo lo que siempre quise del Asistente de Google, y algo más. Puedo hablar con la IA, interrumpirlo, pedirle que lo repita, corregirlo y pedir más detalles, todo en una conversación muy natural y relajada.

Pero si eres alguien como yo y estás acostumbrado a hablar tres idiomas al mismo tiempo, a menudo en la misma oración, y tu cerebro funciona así de forma predeterminada, lo que hace que sea difícil mantener una conversación completa en un idioma, entonces probablemente hayas estado mordiendo en los bits, esperando que Gemini vive para apoyar varios idiomas. Con la caída del píxel de marzo, la función ahora está aquí, y oh. Mi. Cielos. ¿Es mucho mejor de lo que esperaba o qué?

¿Has intentado hablar con Gemini en varios idiomas?

2 votos

Más intuitivo y confiable que el varios idiomas de Google Assistant

Cuando Google lo anunció, pensé que el soporte de varios idiomas en Géminis Live significaba que podría tener una conversación en inglés y luego otra conversación en francés sin cambiar manualmente el idioma. Este ha sido el caso con el Asistente de Google durante años, excepto que tuve que configurar manualmente exactamente qué idiomas quería usar en el Asistente, y nunca funcionó tan bien como se esperaba.

Con Gemini Live, como puede ver en el video de arriba, ese no es el caso:

  • No tuve que elegir el idioma cada vez; Acabo de comenzar una nueva charla, y me entendió.
  • Fuera de la caja, funciona con todos los idiomas compatibles con Live. No tengo que limitarme a solo dos como con el asistente.
  • Aunque tuve algunos silencios incómodos de Géminis y tuve que repetir algunas oraciones, la tasa de éxito de la IA para reconocer diferentes idiomas ha superado el 90% en mis pruebas, y eso es más de lo que el asistente podría soñar.

Hablo tres idiomas casi nativamente (inglés, francés, árabe) y puedo entender y hablar (con un acento grueso) algunos español, italiano y alemán. Entonces, puse esto a prueba e probé diferentes chats con Gemini en vivo en todo esto. Me consiguió todos mis acentos nativos y gruesos cada vez.

El único con el que tuve problemas es, por extraño que parezca, mi lengua materna árabe. Podría hablar en árabe formal escrito, pero eso no es algo natural para mí. En cambio, cuando hablo, está en el dialecto libanés informal. Géminis, sin embargo, parece hablar una mezcla entre un dialecto levantino informal no descriptivo y el árabe formal escrito. Culpo esto a los millones de dialectos regionales y cuán complicados y ampliamente diferentes son, pero incluso entonces, la tasa de éxito fue más alta de lo que esperaba o había experimentado con Asistente en árabe.

Todo esto ya fue una victoria, pero luego decidí avanzar más. Y ahí es donde Gemini vive en sentido figurado me voló los calcetines.

¡Las habilidades de varios idiomas de Gemini Live funcionan a mitad de chat y a mitad de oración!

Google Géminis Multilguages ​​2

Rita El Khoury / Android Authority

Como tenía una experiencia tan positiva con diferentes chats en diferentes idiomas, quería ver si Gemini podía manejarme cambiando idiomas a mitad de chat. Así que comencé una simple discusión en inglés, luego cambié al francés, árabe, español, italiano, alemán, y me siguió a través de los seis, nunca sudando. Puedes verlo en el video a continuación.

Mirando hacia atrás en la transcripción, pude ver que realmente entendía cada palabra que dije en cada idioma y cambió sus respuestas en consecuencia.

Pero no pude parar allí, ¿verdad? Ahora, tenía curiosidad por ver si podía manejar el cambio a mitad de la oración. Así que comencé una oración en inglés, la terminé en francés y esperé con la respiración con la respuesta. ¡Y lo consiguió! Probé para otro lado. ¡Éxito!

Honestamente, en este punto, estaba gritando internamente: “¡Hechicería!” Después de vivir con el Asistente de Google durante 10 años y ver que lucha saber la diferencia entre “Bonjour” y “Bone Joke”, había perdido toda esperanza en los algoritmos de reconocimiento de voz y AIS. Pero Géminis Live restauró esa fe. Compruébalo en acción:

Comencé a mezclarme en árabe y español y seguí cambiando a mitad de la oración, y obtuvo todos ellos. A menudo respondía en el primer idioma con el que comencé mi oración, pero su respuesta era una prueba de que entendía toda la pregunta, no solo la primera parte. Incluso abrió mi herida sobre la última falla de Randal Kolo Muani en la última Copa Mundial de la FIFA y me burló de mí sobre la excelente salvación de Emiliano Martínez. Oh, bueno.

Google Gemini Multilguages ​​4

Rita El Khoury / Android Authority

Más allá de eso, quería intentar desestabilizar a Gemini en vivo aún más y llevarlo a su límite. Entonces, comencé a hablar como normalmente lo hago con mi familia y amigos, mezclando inglés, francés y árabe en la misma oración: la verdadera forma de hablar libanese, por así decirlo. Para mi sorpresa absoluta de mordisco, recibió a nuestro famoso “Hola, Kifak, CA VA?” Y siguió bien (aparte de la incómoda limitación de acento árabe que mencioné anteriormente).

¿Una palabra en un idioma diferente en medio de toda una oración en inglés? Ningún problema

Finalmente, simplemente fui por el ejemplo más extremo que se me ocurrió: hablar una oración completa en un idioma pero poner una palabra en otra. Para ser justos, así es como hablo con mi esposo el 90% del tiempo. Si estamos usando inglés, algunas palabras nos eludirán, y en el medio de nuestro flujo, solo usamos la palabra francesa o árabe. O si hablamos árabe o francés, intercalamos algunas palabras en los otros idiomas sin pensarlo mucho. Es cómo nuestros cerebros funcionan normalmente, y es por eso que nunca me siento muy cómodo hablando con asistentes de voz porque tengo que forzarme a usar un idioma. Pero Géminis Live lo consiguió.

Le pregunté: “Se llama una planta habaq En árabe, ¿qué es eso en inglés? Me dijo que es Basilio. cibuleta ¿en Inglés?” Dijo cebollino. roquettes“Mientras rodaba mi R, entendía que estaba hablando de hojas de cohetes/rúcula. Y finalmente, cuando pregunté qué”Jozt El Tib“Estaba en inglés, dijo correctamente que es una nuez moscada (sí, estaba en mi cocina e intentaba obtener ideas para las pruebas de Géminis).

Google Gemini Multilguages ​​1

Rita El Khoury / Android Authority

Mirando hacia atrás en el registro de chat durante todo esto, la transcripción no es 100% precisa o en el idioma correcto. Está “Haba” y “Rocket” y “Rose to Tibe”, mientras que “Ciboulette” ni siquiera está escrito de ninguna manera. Pero la respuesta demuestra que Gemini Live recibió la palabra correcta en el idioma correcto cada vez.

Y estos no son solo casos extremos. Todas son preguntas que realmente me he hecho o usé el traductor de Google en un momento de mi vida. No puedes creer cuántas veces quiero buscar recetas con calabacín y todo lo que mi cerebro quiere escribir es “calabacín recetas “. Así que solía traducirlo primero, recuerda que es calabacín, luego regresa para hacer mi búsqueda. sfouf (Curcuma Cake) Receta con 3e2de safra (curcuma) y busque lugares para comprar granos para la recomendación de mi padre ba2le (Verde) Planta sin sudar.

Regresé a mis pruebas e intenté las mismas preguntas con el modo de chat de voz de Chatgpt. Mientras consiguió los franceses roquettes y cibuletafalló con el árabe habaq y Jozt El Tibdiciéndome que son fenogrecidos y cominos. Oof. No querría fenogreco en mi pesto.

Después de todas estas pruebas, no puedo, pero no puedo inclinar mi sombrero al equipo de Géminis por clavar el soporte de varios idiomas y hacer que funcione tan impresionantemente bien desde el primer momento. Cada vez que lo empujaba más, me sorprendía ver que todavía me mantenía al día. Este es el primer agente de IA que me entiende de la forma en que hablo naturalmente, por lo que ya no tengo que recordar la palabra exacta en inglés si quiero continuar una conversación con ella. Todavía tengo que transformar un poco mi acento árabe para que me entienda, pero ese es un pequeño precio a pagar por un agente de voz de IA tan versátil. Sin embargo, una vez que comprenda el dialecto libanés como es, será una perfección absoluta.

Continue Reading

Trending