Noticias
Cómo la startup china de IA DeepSeek compite con OpenAI y Google
El día después de Navidad, una pequeña empresa china llamada DeepSeek presentó un nuevo sistema de inteligencia artificial que podría igualar las capacidades de los chatbots de vanguardia de empresas como OpenAI y Google.
Sólo eso habría sido un hito. Pero el equipo detrás del sistema, llamado DeepSeek-V3, describió un paso aún mayor. En un artículo de investigación que explica cómo construyeron la tecnología, los ingenieros de DeepSeek dijeron que utilizaron sólo una fracción de los chips informáticos altamente especializados en los que confiaban las principales empresas de inteligencia artificial para entrenar sus sistemas.
Estos chips están en el centro de una tensa competencia tecnológica entre Estados Unidos y China. Mientras el gobierno de Estados Unidos trabaja para mantener el liderazgo del país en la carrera mundial de la IA, está tratando de limitar el número de chips potentes, como los fabricados por la empresa Nvidia de Silicon Valley, que pueden venderse a China y otros rivales.
Pero el desempeño del modelo DeepSeek plantea dudas sobre las consecuencias no deseadas de las restricciones comerciales del gobierno estadounidense. Los controles han obligado a los investigadores en China a ser creativos con una amplia gama de herramientas que están disponibles gratuitamente en Internet.
El chatbot DeepSeek respondió preguntas, resolvió problemas lógicos y escribió sus propios programas informáticos con tanta capacidad como cualquier otro que ya esté en el mercado, según las pruebas comparativas que las empresas estadounidenses de inteligencia artificial han estado utilizando.
Y se creó a bajo precio, desafiando la idea predominante de que sólo las empresas más grandes de la industria tecnológica (todas ellas con sede en Estados Unidos) podían permitirse el lujo de fabricar los sistemas de inteligencia artificial más avanzados. Los ingenieros chinos dijeron que sólo necesitaban unos 6 millones de dólares en potencia informática bruta para construir su nuevo sistema. Eso es aproximadamente 10 veces menos de lo que gastó el gigante tecnológico Meta en desarrollar su última tecnología de inteligencia artificial.
“El número de empresas que tienen 6 millones de dólares para gastar es muchísimo mayor que el número de empresas que tienen 100 millones o 1.000 millones de dólares para gastar”, dijo Chris V. Nicholson, inversor de la firma de capital de riesgo Page One Ventures, que se centra en Tecnologías de IA.
Desde que OpenAI desató el auge de la IA en 2022 con el lanzamiento de ChatGPT, muchos expertos e inversores habían llegado a la conclusión de que ninguna empresa podía competir con los líderes del mercado sin gastar cientos de millones de dólares en chips especializados.
Las principales empresas de inteligencia artificial del mundo entrenan sus chatbots utilizando supercomputadoras que utilizan hasta 16.000 chips, si no más. Los ingenieros de DeepSeek, por otro lado, dijeron que sólo necesitaban unos 2.000 chips informáticos especializados de Nvidia.
Las limitaciones de los chips en China obligaron a los ingenieros de DeepSeek a “entrenarlo de manera más eficiente para que aún pudiera ser competitivo”, dijo Jeffrey Ding, profesor asistente de la Universidad George Washington que se especializa en tecnología emergente y relaciones internacionales.
A principios de este mes, la administración Biden emitió nuevas reglas que tienen como objetivo evitar que China obtenga chips de IA avanzados a través de otros países. Las reglas se basan en múltiples rondas de restricciones anteriores que impiden que las empresas chinas puedan comprar o fabricar chips de computadora de última generación. El presidente Trump aún no ha indicado si aprobará las reglas o las rescindirá.
El gobierno de Estados Unidos ha tratado de mantener los chips avanzados fuera del alcance de las empresas chinas por temor a que puedan usarse con fines militares. En respuesta, algunas empresas en China han almacenado miles de chips, mientras que otras los obtuvieron de un próspero mercado clandestino de contrabandistas.
DeepSeek está dirigido por una empresa de negociación de acciones cuantitativa llamada High Flyer. Para 2021, había canalizado sus ganancias en la adquisición de miles de chips Nvidia, que utilizó para entrenar sus modelos anteriores. La compañía, que no respondió a las solicitudes de comentarios, se ha hecho conocida en China por captar talentos recién llegados de las mejores universidades con la promesa de altos salarios y la capacidad de seguir las preguntas de investigación que más despiertan su interés.
Zihan Wang, un ingeniero informático que trabajó en un modelo anterior de DeepSeek, dijo que la compañía también contrata personas sin ningún conocimiento en informática para ayudar a comprender la tecnología y ser capaz de generar poesía y resolver preguntas en el notoriamente difícil examen de ingreso a la universidad china.
DeepSeek no fabrica ningún producto para consumidores, por lo que sus ingenieros se centran exclusivamente en la investigación. Eso significa que su tecnología no está limitada por el aspecto más estricto de las regulaciones chinas sobre IA, que exigen que la tecnología orientada al consumidor cumpla con los controles gubernamentales sobre la información.
Las principales empresas estadounidenses siguen avanzando en los últimos avances en IA. En diciembre, OpenAI presentó un nuevo sistema de “razonamiento” llamado o3 que supera el rendimiento de las tecnologías existentes, aunque aún no está ampliamente disponible fuera de la empresa. Pero DeepSeek sigue demostrando que no se queda atrás. Este mes, lanzó su propio modelo de razonamiento impresionante.
(El New York Times ha demandado a OpenAI y su socio, Microsoft, acusándolos de infracción de derechos de autor de contenido de noticias relacionado con sistemas de inteligencia artificial. OpenAI y Microsoft han negado esas afirmaciones).
Una parte crucial de este mercado global que cambia rápidamente es una vieja idea: el software de código abierto. Como muchas otras empresas, DeepSeek ha abierto su último sistema de inteligencia artificial, lo que significa que ha compartido el código subyacente con otras empresas e investigadores. Esto permite que otros creen y distribuyan sus propios productos utilizando las mismas tecnologías.
Si bien los empleados de las grandes empresas tecnológicas chinas se limitan a colaborar con colegas, “si trabajas en código abierto, trabajas con talentos de todo el mundo”, dijo Yineng Zhang, ingeniero de software líder en Baseten en San Francisco que trabaja en el código abierto SGLang. proyecto. Ayuda a otras personas y empresas a crear productos utilizando el sistema de DeepSeek.
El ecosistema de código abierto para la IA cobró fuerza en 2023 cuando Meta compartió libremente un sistema de IA llamado LLama. Muchos asumieron que esta comunidad prosperaría sólo si empresas como Meta (gigantes tecnológicos con enormes centros de datos llenos de chips especializados) continuaran abriendo el código fuente de sus tecnologías. Pero DeepSeek y otros han demostrado que ellos también pueden ampliar los poderes de las tecnologías de código abierto”.
Muchos ejecutivos y expertos han argumentado que las grandes empresas estadounidenses no deberían abrir el código fuente de sus tecnologías porque podrían usarse para difundir desinformación o causar otros daños graves. Algunos legisladores estadounidenses han explorado la posibilidad de prevenir o limitar esta práctica.
Pero otros sostienen que si los reguladores frenan el progreso de la tecnología de código abierto en Estados Unidos, China obtendrá una ventaja significativa. Si las mejores tecnologías de código abierto provienen de China, argumentan, los desarrolladores estadounidenses construirán sus sistemas sobre esas tecnologías. A largo plazo, eso podría colocar a China en el centro de la investigación y el desarrollo de la IA.
“El centro de gravedad de la comunidad de código abierto se ha ido trasladando a China”, afirmó Ion Stoica, profesor de informática en la Universidad de California, Berkeley. “Esto podría ser un gran peligro para Estados Unidos”, porque permite a China acelerar el desarrollo de nuevas tecnologías.
Horas después de su toma de posesión, el presidente Trump rescindió una orden ejecutiva de la administración Biden que amenazaba con frenar las tecnologías de código abierto.
El Dr. Stoica y sus estudiantes construyeron recientemente un sistema de inteligencia artificial llamado Sky-T1 que rivaliza con el rendimiento del último sistema OpenAI, llamado OpenAI o1, en ciertas pruebas comparativas. Sólo necesitaban 450 dólares en potencia informática.
Lo hicieron basándose en dos tecnologías de código abierto lanzadas por el gigante tecnológico chino Alibaba.
Su sistema de 450 dólares no es tan poderoso como la tecnología de OpenAI o el nuevo sistema de DeepSeek. Y es poco probable que las técnicas que utilizaron produzcan sistemas que superen el rendimiento de las tecnologías líderes. Pero el proyecto demostró que incluso operaciones con recursos minúsculos pueden construir sistemas competitivos.
Reuven Cohen, consultor tecnológico de Toronto, ha estado utilizando DeepSeek-V3 desde finales de diciembre. Dice que es comparable a los últimos sistemas de OpenAI, Google y la nueva empresa Anthropic de San Francisco, y mucho más barato de usar.
“Para mí, DeepSeek es una forma de ahorrar dinero”, afirmó. “Éste es el tipo de tecnología que alguien como yo quiere utilizar”.
Noticias
OpenAI: extender el modelo ‘tiempo de pensamiento’ ayuda a combatir las vulnerabilidades cibernéticas emergentes
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Por lo general, los desarrolladores se centran en reducir el tiempo de inferencia, el período entre cuando la IA recibe un aviso y proporciona una respuesta, para obtener información más rápida.
Pero cuando se trata de robustez adversa, los investigadores de Operai dicen: no tan rápido. Proponen que aumentar la cantidad de tiempo que un modelo tiene que “pensar”, la inferencia de tiempo calculador, puede ayudar a acumular defensas contra ataques adversos.
La compañía utilizó sus propios modelos O1 previa y O1-Mini para probar esta teoría, lanzando una variedad de métodos de ataque estáticos y adaptativos: manipulaciones basadas en imágenes, proporcionando intencionalmente respuestas incorrectas a problemas matemáticos y modelos abrumadores con información (“Many- disparó jailbreaking ”). Luego midieron la probabilidad de éxito del ataque en función de la cantidad de cálculo el modelo utilizado en la inferencia.
“Vemos que en muchos casos, esta probabilidad decae, a menudo a casi cero, a medida que crece el cálculo de la inferencia de tiempo”, escriben los investigadores en una publicación de blog. “Nuestra afirmación no es que estos modelos particulares sean inquebrantables, sabemos que lo son, sino que la escala de la inferencia de tiempo produce una mayor robustez para una variedad de entornos y ataques”.
De Q/A simple a Matemáticas complejas
Los modelos de idiomas grandes (LLM) se están volviendo cada vez más sofisticados y autónomos, en algunos casos esencialmente se apoderan de las computadoras para que los humanos naveguen por la web, ejecutan código, realicen citas y realicen otras tareas de forma autónoma, y a medida que lo hacen, su superficie de ataque se vuelve más amplia y más amplia cada más expuesto.
Sin embargo, la robustez adversa continúa siendo un problema terco, con el progreso en la resolución de que aún limitado, señalan los investigadores de OpenAI, incluso cuando es cada vez más crítico, ya que los modelos adquieren más acciones con impactos del mundo real.
“Asegurar que los modelos de agente funcionen de manera confiable al navegar por la web, enviar correos electrónicos o cargar código a repositorios pueden verse como análogos para garantizar que los automóviles autónomos conduzcan sin accidentes”, escriben en un nuevo trabajo de investigación. “Como en el caso de los automóviles autónomos, un agente que reenvía un correo electrónico incorrecto o la creación de vulnerabilidades de seguridad puede tener consecuencias de gran alcance del mundo real”.
Para probar la robustez de O1-Mini y O1 previa, los investigadores probaron una serie de estrategias. Primero, examinaron la capacidad de los modelos para resolver problemas matemáticos simples (adición básica y multiplicación) y más complejos del conjunto de datos de matemáticas (que presenta 12,500 preguntas de las competiciones de matemáticas).
Luego establecen “objetivos” para el adversario: hacer que el modelo salga 42 en lugar de la respuesta correcta; para generar la respuesta correcta más una; o emitir los tiempos de respuesta correctos siete. Utilizando una red neuronal para calificar, los investigadores encontraron que un aumento en el tiempo de “pensamiento” permitió a los modelos calcular las respuestas correctas.
También adaptaron el punto de referencia de facturidad SimpleQA, un conjunto de datos de preguntas destinadas a ser difíciles de resolver para los modelos sin navegar. Los investigadores inyectaron indicaciones adversas a las páginas web que la IA navegó y descubrió que, con tiempos de cómputo más altos, podían detectar inconsistencias y mejorar la precisión objetiva.
Matices ambiguos
En otro método, los investigadores utilizaron imágenes adversas para confundir modelos; Nuevamente, más tiempo de “pensar” mejoró el reconocimiento y el error reducido. Finalmente, probaron una serie de “indicaciones de uso indebido” del punto de referencia Strongenject, diseñado para que los modelos de víctimas deben responder con información específica y dañina. Esto ayudó a probar la adherencia de los modelos a la política de contenido. Sin embargo, si bien un mayor tiempo de inferencia mejoró la resistencia, algunas indicaciones pudieron eludir las defensas.
Aquí, los investigadores llaman las diferencias entre tareas “ambiguas” y “inequívocas”. Las matemáticas, por ejemplo, son indudablemente inequívocas: para cada problema X, hay una verdad terrestre correspondiente. Sin embargo, para tareas más ambiguas como las indicaciones de uso indebido, “incluso los evaluadores humanos a menudo luchan por acordar si la producción es dañina y/o viola las políticas de contenido que se supone que debe seguir el modelo”, señalan.
Por ejemplo, si un aviso abusivo busca consejos sobre cómo plagiar sin detección, no está claro si un resultado que simplemente proporciona información general sobre métodos de plagio es realmente lo suficientemente detallado como para apoyar acciones dañinas.
“En el caso de las tareas ambiguas, hay entornos en los que el atacante encuentra con éxito las ‘lagunas’, y su tasa de éxito no se descompone con la cantidad de cómputo de tiempo de inferencia”, reconocen los investigadores.
Defender contra Jailbreaking, Red Teaming
Al realizar estas pruebas, los investigadores de OpenAI exploraron una variedad de métodos de ataque.
Uno es una gran cantidad de jailbreak, o explotando la disposición de un modelo para seguir ejemplos de pocos disparos. Los adversarios “llenan” el contexto con una gran cantidad de ejemplos, cada uno demostrando una instancia de un ataque exitoso. Los modelos con tiempos de cómputo más altos pudieron detectarlos y mitigarlos con mayor frecuencia y con éxito.
Mientras tanto, los tokens blandos permiten a los adversarios manipular directamente los vectores de incrustación. Si bien el tiempo de inferencia creciente ayudó aquí, los investigadores señalan que existe la necesidad de mejores mecanismos para defenderse de ataques sofisticados basados en vectores.
Los investigadores también realizaron ataques de equipo rojo humano, con 40 evaluadores expertos que buscan indicaciones para obtener violaciones de políticas. Los equipos rojos ejecutaron ataques en cinco niveles de tiempo de tiempo de inferencia, específicamente dirigidos al contenido erótico y extremista, el comportamiento ilícito y la autolesión. Para ayudar a garantizar resultados imparciales, hicieron pruebas ciegas y aleatorias y también entrenadores rotados.
En un método más novedoso, los investigadores realizaron un ataque adaptativo del Programa de Modelo del Lenguaje (LMP), que emula el comportamiento de los equipos rojos humanos que dependen en gran medida de la prueba y el error iterativo. En un proceso de bucle, los atacantes recibieron comentarios sobre fallas anteriores, luego utilizaron esta información para intentos posteriores y una nueva reformulación. Esto continuó hasta que finalmente lograron un ataque exitoso o realizaron 25 iteraciones sin ningún ataque.
“Nuestra configuración permite al atacante adaptar su estrategia en el transcurso de múltiples intentos, basados en descripciones del comportamiento del defensor en respuesta a cada ataque”, escriben los investigadores.
Explotando el tiempo de inferencia
En el curso de su investigación, OpenAi descubrió que los atacantes también están explotando activamente el tiempo de inferencia. Uno de estos métodos que llamaron “piensan menos”: los adversarios esencialmente les dicen a los modelos que reduzcan el cálculo, lo que aumenta su susceptibilidad al error.
Del mismo modo, identificaron un modo de falla en los modelos de razonamiento que denominaron “nerd Sniping”. Como su nombre lo indica, esto ocurre cuando un modelo pasa significativamente más razonamiento de tiempo de lo que requiere una tarea determinada. Con estas cadenas de pensamiento “atípicas”, los modelos esencialmente quedan atrapados en bucles de pensamiento improductivos.
Nota de los investigadores: “Al igual que el ataque de ‘piense menos’, este es un nuevo enfoque para el ataque[ing] modelos de razonamiento, y uno que debe tenerse en cuenta para asegurarse de que el atacante no pueda hacer que no razonen en absoluto o gaste su razonamiento calculando de manera improductiva “.
Noticias
California está investigando la conversión de Openai a una empresa con fines de lucro
El fiscal general del estado preguntó a la compañía cómo planea transferir activos de su organización caritativa sin fines de lucro.
Manténgase actualizado con informes gratuitos sobre temas que importan a todos los californianos. Suscríbase a Calmatters hoy para obtener noticias sin fines de lucro en su bandeja de entrada.
Como parte de lo que describió como una investigación en curso, la Oficina del Fiscal General de California ha solicitado respuestas de Operai sobre su plan informado para convertir a una corporación con fines de lucro y cómo tiene la intención de transferir activos de su organización sin fines de lucro existente.
En una carta enviada al fabricante de chatgpt el 6 de diciembre, el fiscal general adjunto Christopher Lamerdin citó cláusulas en los artículos de incorporación de OpenAi bajo los cuales “los activos de OpenAi están irrevocablemente dedicados a su propósito caritativo”, como lo expresó Lamerdin, así como la responsabilidad de la oficina, como la responsabilidad de la oficina, como la responsabilidad de la oficina, como la responsabilidad de la oficina, como la responsabilidad de la oficina, como la responsabilidad de la oficina, como la responsabilidad de la oficina, así como la responsabilidad de la oficina, así como la responsabilidad de la oficina. para proteger los activos mantenidos en la confianza caritativa “. Además de preguntar sobre las transferencias de activos, buscó información sobre el plan de reestructuración de OpenAI y el valor de sus activos.
La oficina del abogado general dijo a Calmatters en un correo electrónico: “El Departamento de Justicia está comprometido a proteger los activos caritativos para su propósito previsto y toma esta responsabilidad en serio”.
La carta solicitó una respuesta de Openai antes del 8 de enero. Preguntó si el Fiscal General recibió dicha respuesta, escribió un portavoz: “Para proteger su integridad, no podemos comentar sobre una investigación en curso”.
Operai no respondió preguntas sobre el registro sobre la carta o su estructura como organización.
Permitir que la organización sin fines de lucro OpenAi reutilice sus activos para obtener ganancias y atraer a los inversores podría establecer un precedente peligroso, argumentan los críticos, lo que permite a las nuevas empresas disfrutar de las escrituras fiscales de las organizaciones sin fines de lucro, incluso cuando pretenden eventualmente convertirse en empresas capitalistas altamente lucrativas.
El debate sobre la reestructuración comercial de Openai llega en un momento en que la compañía intenta aumentar su influencia. Operai aumentó el gasto en el lobby del Congreso siete veces el año pasado, y por primera vez contrató a los cabilderos para oponerse a los proyectos de ley para regular la IA en Sacramento.
En septiembre, Reuters informó que OpenAI movería el control de su negocio principal de su organización sin fines de lucro a una corporación de beneficios público con fines de lucro. En noviembre, Bloomberg informó que Operai estaba en conversaciones con el Fiscal General de California sobre el turno.
La compañía confirmó a fines de diciembre que estaba considerando una nueva estructura y planeaba establecer una corporación de beneficios públicos con fines de lucro, aunque no se detuvo en decir que planeaba mover el control a la entidad con fines de lucro.
Openai fue fundada a fines de 2015 con el respaldo de miembros de “Mafia de PayPal” como el cofundador de Linkedin, Reid Hoffman, y el CEO de Tesla, Elon Musk. Originalmente, una organización sin fines de lucro se centró en beneficiar a la humanidad a través de la investigación de la inteligencia general artificial, creó cuatro años después un brazo con fines de lucro para parecer más atractivo para los inversores y verter miles de millones de dólares en los recursos informáticos para capacitar a los poderosos sistemas de IA. Se entiende que las ganancias que fluyen a esa parte de la empresa y sus inversores están limitados, creando una barrera para la recaudación de fondos. Una disputa entre los brazos sin fines de lucro y con fines de lucro de OpenAi entró en la abierta a fines de 2023 luego de un esfuerzo de la junta sin fines de lucro para expulsar al cofundador y CEO Sam Altman, lo que llevó a un ultimátum de una mayoría de empleados, que amenazaron con renunciar si Altman no fue reinstalado.
Desde entonces, Openai cerró una ronda de financiación de $ 6.6 mil millones y, a principios de esta semana, junto con el presidente Trump en la Casa Blanca, anunció el Proyecto Stargate, una empresa conjunta de $ 500 mil millones para construir centros de datos e infraestructura energética que las compañías como OpenAI dicen que es necesaria para capacitar a Grandes modelos de IA.
El fiscal general de California, Rob Bonta, el 12 de diciembre se instó en una carta de Meta a evitar que Operai se convierta en una compañía con fines de lucro, según el Wall Street Journal, y Meta argumentó que tal precedente podría tener “implicaciones sísmicas para la silicio Valle “al permitir que las nuevas empresas disfruten de un estado fiscal sin fines de lucro privilegiado hasta que comiencen a ganar dinero. Musk ha tratado de bloquear la conversión como parte de una demanda contra Operai presentada el verano pasado.
Después de que la junta sin fines de lucro Operai despidió a Altman en 2023, el grupo de defensa del consumidor sin fines de lucro Public Citizen argumentó repetidamente en cartas a los abogados generales en California, donde OpenAi tiene su sede, y Delaware, donde OpenAi presentó artículos de incorporación, que deberían investigar la organización. El copresidente de Public Citizen, Robert Weissman, escribió que OpenAi no estaba operando como una organización sin fines de lucro, debería perder su estado sin fines de lucro y ser obligado a operar como un negocio con fines de lucro, y que cualquier entidad con fines de lucro que suponga el control de OpenAI debe pagar una prima por ese control a una organización sin fines de lucro completamente separada de OpenAI.
El precedente de este enfoque proviene de Blue Cross of California, que, después de una transferencia de activos a una subsidiaria con fines de lucro en la década de 1990, dio más de $ 3 mil millones en acciones a dos fundaciones.
Es difícil decir con precisión cuánto vale tal prima cuando se trata de OpenAi, pero un día antes de la ronda de financiamiento de $ 6 mil millones de Openai en octubre pasado, Weissman estimó que vale al menos $ 30 mil millones.
El proyecto de Stargate, Weissman, dijo a Calmatters: “Es más evidencia de que la organización sin fines de lucro de OpenAi realmente no existe como un organismo independiente, que la junta sin fines de lucro de OpenAi no está ejerciendo ninguna autoridad significativa sobre las ganancias, y ni siquiera está tomando en serio su en serio. misión sin fines de lucro “.
Weissman quiere ver que el Fiscal General investigue cuánta de una prima necesitaría pagar un OpenAI con fines de lucro y cómo esa valoración se relaciona con la propiedad intelectual propiedad de OpenAI y empresas y subsidiarias vinculadas a OpenAI.
“La Oficina del Fiscal General de California es un regulador serio de organizaciones sin fines de lucro, y no hay forma de que esta escala se desvíe de una organización sin fines de lucro sin una cuidadosa revisión por parte del Fiscal General de California”, dijo Weissman a Calmatters. “Esperamos que lleguen a conclusiones que rastrean [with] Lo que hemos estado discutiendo durante el último año y medio ”.
Levi Sumagaysay contribuyó a esta historia.
Noticias
El operador aún no vale su suscripción ChatGPT Pro de $ 200 por mes: he aquí por qué
Esta semana, OpenAI presenta una vista previa de la investigación llamada Operador. Inicialmente quería hacer una prueba práctica, pero una vez que descubrí que necesitas una cuenta Pro (que cuesta $200 por mes), decidí ver las diversas demostraciones de OpenAI, compartirlas contigo y luego compartir mis pensamientos. Altman dijo que los usuarios del plan Plus de $20 por mes eventualmente podrían usar Operador.
El operador es un agente de IA. Básicamente, simula los clics del teclado y el mouse en un navegador, lee la pantalla y realiza acciones.
Además: ¿Tienes un misterio genealógico? Cómo utilicé la IA para resolver un rompecabezas familiar
Tengo una trayectoria bastante larga en la creación de este tipo de aplicaciones, utilizando principalmente programación algorítmica junto con un poco de aprendizaje automático para identificar la ubicación de ciertas imágenes en la pantalla.
Mi proyecto más reciente fue una herramienta de publicación automática que haría mis publicaciones en las redes sociales por mí. Sí, hay una gran cantidad de servicios de suscripción que harán eso por usted, pero decidí ver qué se necesitaría para crear el mío propio.
Mi código utilizó una combinación de DOM (modelo de objetos de documento) para páginas de servicios de redes sociales individuales, junto con reconocedores de imágenes que podían encontrar botones (como los botones + o Publicar). Utilicé la herramienta que construí durante aproximadamente un año, pero me encontré con un problema muy molesto.
Aproximadamente cada dos semanas, uno de los seis sitios por los que navegaba hacía un pequeño cambio en la interfaz de la pantalla, lo que procedía a descifrar mi código. Entonces, cada dos semanas, en lugar de publicar mis publicaciones en las redes sociales normalmente, tenía que dedicar algunas horas a arreglar lo que se había roto.
El hecho de que la web cambie constantemente (por ejemplo, un botón azul “Publicar” podría convertirse en un botón rojo “Publicar/Suscribirse con un 30% de descuento” durante una promoción) podría sacar a la IA de su juego.
Agente que usa computadora
El modelo que utiliza OpenAI se llama CUA o agente de uso informático. Este modelo dicta cómo el Operador habla con los sitios web por los que se supone que debe navegar.
En su video de introducción, Sam Altman y los miembros del equipo OpenAI, Yash Kumar, Casey Chu y Reiichiro Nakano, explicaron que Operador no usa API y no trabaja con texto extraído del DOM. En cambio, está “viendo” una página web real en un navegador en vivo que se ejecuta en la nube, leyendo el contexto directamente en la pantalla.
Además: Cómo ChatGPT escaneó 170.000 líneas de código en segundos, ahorrándome horas de trabajo
Tenían muy claro que el mecanismo de control de las páginas web era la simulación del mouse y el teclado, y la entrada que lee la IA es la representación visual de la página web real que vemos como humanos.
El equipo de OpenAI dijo que Operador funcionará como un ser humano usando un navegador web: buscará, hará clic y visitará sitios web. Pero hay una contradicción que aún no he descubierto del todo: OpenAI se ha asociado con varios sitios (Instacart, DoorDash, Etsy, OpenTable, Tripadvisor, AP, Priceline, StubHub, Thumbtack, Target, Uber y más).
¿Qué hacen estas asociaciones por el Operador? ¿Son acuerdos de afiliados en los que OpenAI obtiene una comisión por las ventas? ¿Tienen un acuerdo para informar al Operador si el formato del sitio web ha cambiado? ¿OpenAI realizó modelos adicionales para esos sitios? ¿Tiene algún nivel de acceso API a los datos que esos sitios muestran en la web?
Hasta que comprendamos mejor esas respuestas, no sabremos realmente el alcance de lo que puede hacer el Operador. Todas las demostraciones mostradas se realizaron utilizando sitios con los que la compañía se ha asociado, por lo que no está claro, por ejemplo, si podría ingresar a ZDNET y construir una lista de mis últimos 10 artículos y enviármela por correo electrónico usando Gmail.
También: Cómo utilizar ChatGPT
En este momento, tengo la impresión de que Operador es bastante superficial en lo que puede lograr. Esta demostración, por ejemplo, pudo buscar una receta en un sitio y luego completar un carrito de compras de Instacart con la lista de ingredientes.
Había demostraciones que mostraban cómo hacer una reserva en un restaurante, comprar entradas para un partido de baloncesto, etc. Cada uno de estos fueron uno o dos procesos de sitio donde los datos se encontraron en un sitio y luego se aplicaron a otro.
Barandillas y privacidad
OpenAI parece haber considerado seriamente las cuestiones de privacidad y barreras de seguridad. Por ejemplo, una demostración mostraba la reserva de cuatro entradas de baloncesto por un total de más de 1.000 dólares. Es poco probable que alguno de nosotros se sienta cómodo dejando que la IA siga adelante y gaste esa cantidad de dinero en nuestro nombre sin supervisión.
El operador sabe cuándo hacer una pausa y solicitar la intervención humana. O al menos, se supone que así sea. Todavía está en versión beta, por lo que es posible que se vuelva loco, simplemente porque no está del todo terminado.
También: La mejor IA para codificar
Pero la idea clave es simple: cuando las operaciones en un sitio web están a punto de volverse sensibles (iniciar sesión, gastar dinero, hacer reservas, pagar, etc.), el Operador le pide a su humano que confirme la operación.
Además, el usuario humano puede tomar el control de la ventana del navegador basado en la nube. Según OpenAI, cuando el humano controla el navegador, actúa como una sesión privada y nada de lo que ocurre mientras el humano tiene el control se retroalimenta a la IA.
También puede optar por no permitir que las interacciones de su sitio web se utilicen como datos de entrenamiento para la IA.
Instrucciones personalizadas específicas del sitio
El operador le permite crear instrucciones personalizadas específicas del sitio, sitio por sitio.
En el ejemplo anterior, extraído del vídeo a continuación, el demostrador quiere asegurarse de que las reservas en Priceline sean totalmente reembolsables y tengan un desayuno gratis. Al colocar esa instrucción personalizada en las preferencias del sitio web, el agente de IA siempre lo tendrá en cuenta al realizar una tarea en Priceline.
Además, Operador le permitirá guardar una tarea para que pueda volver a ejecutarla o programarla más tarde.
Si tiene una actividad regular que le gustaría que Operador hiciera por usted, esta es una manera rápida de asegurarse de que pueda volver a ejecutar su trabajo cuando lo desee.
Pasos de bebé
Para mí, el operador es como pequeños pasos en este momento. Por ejemplo, me encantaría decirle a una IA que revise mi bandeja de entrada, busque todos los comunicados de prensa y los asigne a una etiqueta (estoy usando Gmail). O busque todos los comunicados de prensa relacionados con la IA y asígneles una etiqueta, mientras que el resto de los comunicados de prensa reciben otra.
Esta es una tarea compleja y que requiere un tiempo de ejecución bastante largo (tengo 51.000 piezas de marketing en mi pestaña Promociones). Como tal, está mucho más allá del alcance de lo que puede hacer el Operador.
También: Pasé horas probando las tareas de ChatGPT y su negativa a seguir instrucciones fue un poco aterradora.
¿Pero algún día? Tal vez.
También estoy tratando de evitar la interpretación de terror y ciencia ficción de todo esto. Hay una pequeña parte de mi cerebro gritando: “¿Están dejando que la IA navegue por Internet? ¿Están locos?”.
Y sí, herramientas como Operador (e incluso todas las IA que se entrenan en Internet en su conjunto) probablemente estén abriendo puertas a algunas cosas realmente malas, especialmente si alguna vez creamos IA sensibles. Pero por ahora, es un ejercicio interesante ver qué tan bien una IA logra leer una receta y pedir los ingredientes de Instacart.
¿Qué opinas? Cuando el precio baje al rango de $20 por mes, ¿ve tareas que podría asignar al Operador? ¿Te preocupa? Háganos saber su opinión en los comentarios a continuación.
Puedes seguir las actualizaciones diarias de mi proyecto en las redes sociales. Asegúrate de suscribirte a mi boletín de actualización semanal y sígueme en Twitter/X en @DavidGewirtzen Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, en Bluesky en @DavidGewirtz.com y en YouTube en YouTube.com/DavidGewirtzTV.
-
Startups8 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos9 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Recursos9 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Recursos8 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Tutoriales9 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Estudiar IA8 meses ago
Curso de Inteligencia Artificial de UC Berkeley estratégico para negocios
-
Startups6 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Noticias6 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo