Connect with us

Noticias

🔮 De ChatGPT a mil millones de agentes

Published

on

Hola, soy Azeem.

Estoy en la Cumbre DealBook en Nueva York hoy y acabo de escuchar a Sam Altman hablar sobre su visión sobre los próximos años:

Espero que en 2025 tengamos sistemas que la gente mire, incluso aquellos que son escépticos sobre el progreso actual, y digan: ‘Vaya, no esperaba eso’. Los agentes son de lo que todo el mundo habla y por una buena razón. Esta idea de que puedes darle a un sistema de IA una tarea bastante complicada, el tipo de tarea que le darías a un ser humano muy inteligente, que lleva un tiempo implementar y usar un montón de herramientas y crear algo de valor. Ese es el tipo de cosas que esperaría el próximo año. Y eso es un gran problema. Si eso funciona tan bien como esperamos, realmente puede transformar las cosas.

Los agentes han estado en mi hoja de ruta por un tiempo. El año pasado hablé de nuestra mil millones de agentes futuros e invirtió en un par de nuevas empresas que construyen sistemas agentes. En la publicación de hoy, analizamos cómo pensamos que pasaremos de asistentes de inteligencia artificial como ChatGPT a miles de millones de agentes que nos respaldan en segundo plano. ¡Disfrutar!

Por

y

En un futuro muy cercano, los trabajadores del conocimiento podrían contar con el apoyo de miles de agentes de IA, todos operando en paralelo. Esto no es futurismo especulativo. Jensen Huang de Nvidia habló recientemente sobre el papel de los agentes Ya juega en Nvidia y cómo ve su futuro:

Puntilla: ¿Ya estás utilizando cadenas de razonamiento y herramientas como o1 en nuestro propio negocio para mejorarlo?

Jensen: Absolutamente. Nuestro sistema de ciberseguridad actual no puede funcionar sin nuestros propios agentes. Contamos con agentes de IA que ayudan a diseñar chips: Hopper no sería posible, Blackwell no sería posible y ni siquiera pensamos en Rubin. Contamos con diseñadores de chips de IA, ingenieros de software de IA e ingenieros de verificación de IA, y los construimos todos internamente. Tenemos la capacidad y preferiríamos aprovechar la oportunidad para explorar la tecnología nosotros mismos. Espero que Nvidia algún día sea una empresa de 50.000 empleados con 100 millones de asistentes de IA […] Las IA reclutarán a otras IA para resolver problemas […] Por lo tanto, seremos simplemente una gran base de empleados, algunos de ellos digitales y otros biológicos.

De manera similar, Sam Altman anticipa el surgimiento de una unicornio unipersonal—Una empresa de mil millones de dólares administrada por un solo individuo que aprovecha un ejército de agentes de IA.

Los asistentes de IA actuales, como ChatGPT, requieren una participación humana constante: son copilotos, no actores autónomos. La próxima evolución, que ya está en marcha, es la de agentes que ejecutan tareas de forma independiente una vez que se les asigna un objetivo, muy parecido a delegar a un equipo experimentado y dar un paso atrás mientras ellos se encargan del resto. Y no hay límite para el tamaño de este equipo.

Para ayudarle a entender esto, nos asociamos con

ingeniero de aprendizaje automático, escritor y editor en jefe de .

Juntos, exploraremos tres áreas en la publicación de hoy:

  • El estado actual de los agentes de IA y sus aplicaciones en el mundo real.

  • ¿Por qué su adopción generalizada se está volviendo inevitable?

  • Cómo esta transición podría conducir a un futuro en el que miles de millones de agentes aumenten el trabajo humano.

Los agentes han sido una prioridad para los científicos informáticos durante décadas, pero hasta hace poco se lograron pocos avances. Lo lejos que hemos llegado se refleja mejor en una cita de un artículo de 1997 por los científicos informáticos Christopher Welty y Louis Hoebel, quienes luego escribieron

Cualquiera que tenga conocimientos sobre “agentes” no puede evitar reconocer que, como tecnología de inteligencia artificial, normalmente hay muy poca inteligencia real involucrada. En cierto sentido, los Agentes pueden definirse como IA a pequeña escala que funciona.

La era ChatGPT introdujo sistemas basados ​​en LLM que actualmente consideramos “agentes de IA”. Los primeros prototipos como BebéAGIpor ejemplo, demostró que la planificación de tareas podría permitir a los LLM actuar de forma autónoma.

Ejemplo de Yohei Nakajima

Las últimas mejoras se han capturado en puntos de referencia (consulte la Informe sobre el estado de la IA 2024 para profundizar) e investigaciones que demuestran que los LLM existentes se pueden utilizar para crear agentes que aprenden continuamente en entornos abiertos (como Minecraft).

Lanzamiento de DeepMind gatoun “agente generalista” que utiliza la misma idea subyacente en los LLM para realizar tareas, desde apilar bloques con un brazo robótico real hasta subtitular imágenes. Joon Park y sus colegas propusieron Agentes generativos como una caja de arena interactiva que se utilizará principalmente para las ciencias sociales. En ciencias duras, investigadores de Stanford crearon un laboratorio virtual que utilizaba agentes crear 92 nuevos diseños de nanocuerposincluidos múltiples nanocuerpos con actividad de unión exitosa contra el virus que causa Covid-19 (como se destaca en EV#501).

En la empresa, Adepto imaginó un asistente digital que podría convertir un comando de texto en una serie de acciones, como hacer un plano para una pieza nueva de un automóvil, y recaudó 350 millones de dólares hacerlo antes de ser absorbido en Amazon.

En el ámbito del consumo, empresas emergentes como Shortwave han desarrollado agentes que pueden desempeñar el papel de asistentes ejecutivos para gestionar y estructurar la información en dominios como el correo electrónico. Azeem ha invertido en dos nuevas empresas de agentes, WordWare y Mellizo.

Mientras tanto, Microsoft ha estado aprovechando su fortaleza en software empresarial para establecer silenciosamente un punto de apoyo en esta área. Encima 100.000 de sus clientes empresariales ya están experimentando en Copilot Studio, creando agentes autónomos personalizados o implementando soluciones listas para usar.

Hiscox, una aseguradora, utilizó agentes para reducir el tiempo de cotización de riesgos complejos de tres días a unos pocos minutos. De manera similar, McKinsey, utilizando el ecosistema de agentes de Microsoft, ha reducido su flujo de trabajo de admisión de proyectos de 20 días a dos días.

Socios de conocimiento predice que todos tendrán un asistente de IA: estos agentes tomarán diferentes formas y redefinirán los límites entre aplicaciones, plataformas y servicios.

Durante el siglo pasado, hemos sido testigos de asombrosos aumentos de productividad en industrias como la manufacturera y la agrícola: las fábricas producen productos exponencialmente más rápido y las granjas alimentan a miles de millones con una fracción de la fuerza laboral que alguna vez necesitaron. Sin embargo, en las aulas todavía se necesita un maestro para educar a 30 estudiantes. Esto es La maldición de Baumol. Cuando los salarios aumentan en sectores de alta productividad como el manufacturero, los servicios intensivos en mano de obra deben aumentar los salarios para competir, incluso si su productividad permanece estancada. Así, mientras los productos manufacturados se abaratan, muchos servicios se encarecen.

En el centro de esta cuestión está nuestra incapacidad para escalar nuestra propia humano tiempo. Según la Ley de Amdahl, la velocidad de un sistema está limitada por su componente más lento. En muchas partes del sector de servicios, esto se reduce a limitaciones en torno a los procesos dependientes de los seres humanos. La Revolución Industrial superó las limitaciones físicas mediante la mecanización; La IA podría ser una oportunidad similar para superar los obstáculos cognitivos al otro lado de…

  1. Velocidad: Los sistemas de IA operan mucho más allá de los tiempos de reacción humanos, procesando datos en milisegundos. El LLM más rápido produce resultados a 6000 veces la velocidad que puede alcanzar un humano.

  2. Escala: Podemos implementar tantos agentes de IA como lo permitan nuestros recursos computacionales, superando potencialmente la población humana.

  3. Paralelización: Las tareas se pueden dividir entre miles o incluso millones de agentes de IA. En lugar de analizar 100 documentos secuencialmente, 100 agentes de IA pueden procesarlos simultáneamente y fusionar sus hallazgos en un solo informe.

  4. Eficiencia de costes: Con el tiempo, los agentes se vuelven más baratos que la mano de obra humana, especialmente cuando se escala. En este momento podemos conseguir un sistema protoagente para realizar un metanálisis de 200 artículos de ArXiv por aproximadamente el 1% del costo humano. AlphaFold predijo 200 millones de estructuras proteicas, cada una de las cuales tradicionalmente cuesta $100,000 y un doctorado completo para determinar.

  5. Personalización: En lugar de dividir un servicio humano entre muchos, la IA permite experiencias individualizadas para todos: un tutor privado para usted o su hijo, por ejemplo.

  6. Aprendizaje y adaptación: Como sostiene el investigador independiente Gwern Branwen: “Todo problema suficientemente difícil se convierte en un problema de aprendizaje por refuerzo.“Cada desafío complejo requiere tomar secuencias de decisiones bajo incertidumbre donde cada elección afecta las opciones y resultados futuros, que es exactamente lo que resuelve el aprendizaje por refuerzo. Con esto, los sistemas de IA pueden ejecutar millones de experimentos paralelos, agregar sus aprendizajes mediante el reparto de peso y actuar sobre esos conocimientos de una manera que los sistemas biológicos no pueden.

Durante el próximo año, el despliegue de agentes tomará un “Gatear, caminar, correr” acercarse. Las empresas están experimentando con casos de uso simples, antes de expandirse en complejidad. De ahí todo lo que se habla de los agentes de servicio al cliente, una implementación fácil y de riesgo relativamente bajo. Pero la complejidad y la variedad de tareas que un agente puede realizar crecerán.

Para pensar más en una evolución que podríamos comenzar a ver el próximo año, veamos una profesión que todos aman… los abogados.

Honoré Daumier, Les Gens du Justice: Les avocats et les plaideurs, 1845

De acuerdo a una base de datos mantenida por el Departamento de Trabajo de EE. UU.los abogados realizan 22 tareas profesionales distintas. Una de estas tareas principales es la preparación de escritos y dictámenes legales para presentaciones judiciales. Imagine a un socio de una firma de abogados asignando un complejo escrito de apelación a lo que parece ser un único asistente de IA, pero que en realidad es una orquesta de agentes especializados, cada uno con una “experiencia” distinta.

El proceso comienza en el momento en que se cargan los expedientes del caso. Un agente coordinador (un director de proyectos de IA, por así decirlo) analiza inmediatamente los requisitos del tribunal y los plazos de presentación. En cuestión de segundos, un agente de investigación revisa bases de datos legales a una velocidad sobrehumana. Identifica todos los precedentes relevantes y patrones sutiles en el razonamiento judicial en casos similares. Al mismo tiempo, un agente de análisis de casos examina el expediente del juicio, relaciona los hechos del caso con elementos legales e identifica argumentos prometedores que los abogados humanos podrían pasar por alto en miles de páginas de testimonios.

Así como un agente de redacción elabora argumentos preliminares en un lenguaje legal preciso, un agente de gestión de citaciones garantiza que cada referencia cumpla con los estándares del Bluebook y valida que cada caso citado siga siendo una buena ley. Un agente de cumplimiento técnico monitorea continuamente el formato, el recuento de palabras y las reglas judiciales en tiempo real, mientras que un agente de control de calidad valida las cotizaciones y garantiza la coherencia lógica. El agente coordinador contrata a otros agentes, gestiona los flujos de trabajo y resuelve conflictos.

Y esto es sólo para una única tarea…

La magia del sistema agente es que puede escalar. Podría tener una docena o más de informes preparados en paralelo. Lo que comienza con unos pocos agentes especializados manejando un informe legal rápidamente se convierte en cascada. Empezar con 1,3 millones de abogados estadounidensescada uno de los cuales despliega 5 agentes especializados para cada una de las 22 tareas que realizan; eso ya son mil millones de agentes. Eso es sólo para 1 millón de abogados… Se estima que hay 1.000 millones trabajadores del conocimiento en todo el mundo. Habrá miles de millones de agentes. Y esto supone 5 agentes por tarea. ¿Pero por qué no 5, 10, 100 agentes? Teóricamente no hay más límite que el de eficacia.

Pero hacer que las organizaciones de abogados sean más eficientes no es lo único que los agentes permitirán. Como señala Flo Crivello, fundador y CEO de Lindy, cuando las herramientas se vuelven exponencialmente más baratas, pasan de ser activos corporativos a permitir la creatividad individual:

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Gemini Robotics: A new era of AI-Powered Robots

Published

on

Introduction

In March 2025, Google DeepMind introduced Gemini Robotics, a groundbreaking technology set to revolutionize how robots interact with humans in both industrial and domestic environments.

Until now, robots commonly used in factories have been designed with a primary focus on task efficiency, executing specific jobs as quickly and precisely as possible. These machines operate much like the mechanical components of a car, where every action is carefully timed and optimized for efficiency. However, traditional industrial robots assume a static environment, meaning they do not monitor or adapt to changes around them. They are unable to detect obstacles, such as a person crossing their path, which is why they are typically enclosed within safety cages to prevent accidents.

Gemini Robotics aims to change this paradigm by integrating advanced AI, enabling robots to perceive, adapt, and interact dynamically with their surroundings, making them safer and more versatile for real-world applications.

However, the nature of work is changing rapidly. For example, in the automotive industry, vehicle models are evolving in increasingly shorter cycles. This means that production chains must adapt quickly, making highly specialized machines less cost-effective in the long run.

Additionally, challenges arise when robots need to share a workspace with other similar robots. When relying on a basic approach based on predefined task lists and rigid workarounds, coordination and efficiency can become major obstacles.

In a factory, machines are not the only ones at work. Not all tasks can be fully automated due to cost constraints or the need for flexibility. This is where the concept of Cobots (Collaborative Robots) comes into play. A Cobot is a type of robot specifically designed to work alongside humans in a shared workspace, rather than operating autonomously or in isolation like traditional industrial robots.

However, designing Cobots presents new challenges, particularly in ensuring human safety. These robots must be capable of detecting collisions with both humans and other machines within their environment. As a result, they need to dynamically adjust their movements based on real-time conditions. For example, it is common for a Cobot to reduce its working speed when a human approaches too closely, minimizing the risk of accidental contact.

How Gemini Robotics differs from previous approaches

Google DeepMind aims to leverage its most advanced AI models, such as Gemini 2.0, to help robots better understand the physical world. The goal is to develop generalist robots capable of executing various tasks with the same programming while ensuring safety when working alongside humans in dynamic environments.

According to DeepMind, Gemini Robotics has been tested on a wide range of tasks and has demonstrated the ability to tackle challenges it had never encountered during training. For instance, previous robots AI trained only to stack blocks would struggle if asked to arrange items in a fridge. In contrast, Gemini Robotics harnesses the broad reasoning capabilities of Gemini 2.0, enabling it to process novel instructions. In technical evaluations, it more than doubled performance on a comprehensive generalization benchmark, surpassing other state-of-the-art models in adapting to new situations.

Another key differentiator is real-time interactivity. Built on a powerful language model, Gemini can understand instructions given in everyday language and even follow along in a conversation. If a user interrupts a robot mid-task and says, “Actually, place that item on the top shelf instead,” the Gemini system can adjust on the fly. It continuously monitors both its environment and instructions, ensuring it doesn’t blindly execute a plan if conditions change.

Earlier robots were often rigid once a task began, any unexpected change could cause failure (for example, a cleaning robot might repeatedly bump into a chair that had been moved after it mapped the room). In contrast, Gemini’s AI brings a human-like adaptability, it is always “thinking” and re-planning when necessary. This adaptability is possible because the model doesn’t just react reflexively; it actively reasons through situations, thanks to Gemini 2.0’s deep contextual and intent-based understanding.

The secret under the hood

In recent years, AI models have evolved from simply processing text inputs and generating text-based responses to more advanced architectures capable of handling multiple types of inputs and outputs within the same model.

Google DeepMind has built upon this evolution by using Gemini 2.0 as the foundation for a new AI model that can process various types of input data, including text (natural language), images, audio, and video. This model goes beyond traditional AI by generating action outputs that can be executed directly by a robot. It is a Vision-Language-Action (VLA) model, serving as the “brain” for robots and enabling them to interpret complex commands and perform tasks in human environments.

A crucial innovation in this system is the integration of an intermediate reasoning layer between input and output. This layer is designed to analyze physical space and enforce safety protocols, ensuring that every action is evaluated in real-time before execution. The most groundbreaking aspect of this technology is that its outputs are generated as a continuous stream, dynamically adjusting based on real-time input data.

This concept is incredibly powerful and represents the key breakthrough behind the success of this new technology, allowing robots to adapt on the fly and operate more safely and efficiently in unpredictable environments.

Gemini Robotics highlights

Google DeepMind highlights three core capabilities that define the advancements in Gemini Robotics: generality, interactivity, and dexterity.

Generality: Adapting to the Unexpected

Generality refers to the ability of a robot to adapt to new and unforeseen situations. Gemini Robotics leverages the extensive world knowledge embedded within the Gemini model to handle novel objects, diverse instructions, and unfamiliar environments. This capability is crucial for robots to move beyond highly specific, pre-programmed tasks and operate effectively in the dynamic real world. Google reports that Gemini Robotics demonstrates a significant improvement in this area, more than doubling the performance on a comprehensive generalization benchmark compared to other leading vision-language-action models. This focus on generality indicates a broader trend in robotics towards creating more versatile machines. Unlike traditional industrial robots designed for very specific and repetitive actions, Gemini Robotics aims to enable robots that can be more readily adapted and deployed across a wider variety of tasks and settings.

Interactivity: Understanding and Responding Naturally

Interactivity describes the robot’s ability to understand and respond to commands and changes in its environment in a seamless and intuitive way. Gemini Robotics can understand and respond to everyday, conversational language and react to sudden changes in instructions or its surroundings, often continuing tasks without needing further input. This includes the ability to understand and respond to natural language instructions in multiple languages. Furthermore, if a robot happens to drop an object or if someone in the environment moves something, the system can replan its actions and adjust accordingly without requiring explicit reprogramming. This level of real-time adaptability is crucial for robots to be truly useful in dynamic, human-centric environments. The advanced language understanding capabilities derived from Gemini 2.0 directly contribute to this seamless interaction. Instead of requiring users to learn specific robotic commands, they can communicate with Gemini-powered robots using natural language, making the technology more accessible and fostering more intuitive human-robot collaboration.

Dexterity: Mastering Fine Motor Skills

Dexterity refers to the robot’s ability to perform complex tasks that require fine motor skills and precise manipulation. Gemini Robotics demonstrates significant advancements in this area, enabling robots to perform tasks such as folding origami, packing a lunch box, or preparing a salad. Demonstrations of this capability include robots picking fruits and snacks, placing glasses in cases, tying shoelaces, and even attempting to slam dunk a basketball. Many everyday tasks that humans perform effortlessly rely on a high degree of dexterity, and progress in this area significantly expands the potential utility of robots in real-world scenarios. While robots have traditionally excelled at tasks involving large, repetitive movements, fine manipulation has been a persistent challenge. Gemini Robotics’ advancements in dexterity open possibilities for robots to assist in more nuanced and human-oriented tasks.

Gemini robotics model family

Google DeepMind has introduced two AI models under the Gemini Robotics initiative:

  • Gemini Robotics: Gemini Robotics is the general AI model for robotics built on top of DeepMind’s Gemini 2.0. It extends the foundation model’s multimodal capabilities, text, vision, and audio by adding robotic control as a new output. This means that instead of just processing and responding to information in the digital realm (as Gemini 2.0 does with text and images), Gemini Robotics can generate motor actions and control robotic systems in real-world environments.
  • Gemini Robotics-ER: Gemini Robotics-ER is a specialized model for embodied reasoning that works alongside or enhances the Gemini Robotics model. It focuses on spatial awareness, object interactions, and physics-based reasoning.

Comparison table:

Business Adoption

The advancements brought by Gemini Robotics open a vast range of real-world applications across multiple industries. These include the development of more capable general-purpose robots and next-generation humanoid robots designed to assist in homes, workplaces, and beyond.

A key collaboration in this effort is Google DeepMind’s partnership with Apptronik, a robotics company, to integrate Gemini Robotics into their Apollo humanoid robot for logistics automation. This partnership highlights the practical implementation of Gemini Robotics in advancing humanoid robots for real-world tasks.

Furthermore, Gemini Robotics-ER is currently being evaluated by a select group of trusted partners, including Agile Robots, Agility Robotics, Boston Dynamics, and Enchanted Tools. This strong industry interest underscores the technology’s potential and its validation by leading robotics companies.

The potential applications span a broad spectrum of tasks, from everyday household chores like meal preparation to complex industrial operations such as warehouse automation. Additionally, Gemini Robotics could play a crucial role in elder care and medical assistance, providing support for healthcare professionals.

These collaborations between Google DeepMind and various robotics companies are crucial for translating cutting-edge AI research into practical, real-world solutions. They also facilitate continuous improvement by gathering valuable feedback to further refine and enhance the technology.

In Summary

Gemini Robotics has made a significant impact by demonstrating that a single AI model can equip robots with a wide range of capabilities from understanding human commands to adapting to new tasks and manipulating objects with precision. Unlike previous approaches, Gemini Robotics is designed to be more general, integrated, and adaptable, introducing groundbreaking technologies that could shape the future of robotics AI.

The potential applications are vast, spanning business automation, industrial efficiency, and personal assistance in daily life. However, transforming this prototype into a widely adopted reality will require overcoming challenges in safety, business integration, and ethical considerations. The coming years will serve as a crucial testing phase for Gemini Robotics, determining whether it can successfully transition from an experimental breakthrough to a mainstream solution.

If all goes well, this moment could be remembered as the turning point when robots moved beyond the assembly line and began seamlessly assisting in the real world, a world they can finally understand. With Gemini Robotics, the vision of intelligent, helpful robots is no longer confined to science fiction but is becoming a tangible reality, ushering in a new era where AI and robotics work together to enhance human potential.

 

Sources

– Gemini Robotics – Google DeepMind

– Gemini Robotics brings AI into the physical world – Google DeepMind

– storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf

Continue Reading

Noticias

Cómo Operai perdió almizcle y apuntó a “algo mágico”

Published

on

Regístrese para el Big Think Business Newsletter

Aprenda de los pensadores comerciales más grandes del mundo

Extraído del valle de Ai por Gary Rivlin. Copyright © 2025 por Gary Rivlin. Reimpreso por cortesía de Harper, una huella de los editores de HarperCollins. Disponible donde se vendan los libros.

En 2018, Reid Hoffman recibió una llamada en pánico de Sam Altman. Las cosas no iban bien dentro de Openai. “Sabíamos lo que queríamos hacer”, dijo Altman. “Sabíamos por qué queríamos hacerlo. Pero no teníamos idea de cómo”. Su gente intentó aplicar la IA a los videojuegos, como lo había hecho DeepMind, y dedicó demasiado tiempo experimentando con una mano robótica que habían construido que podía descifrar el cubo de Rubik. Estaban tambaleándose. Pero el verdadero problema era almizcle. “Elon no está feliz”, dijo Altman a Hoffman.

La carrera para construir el primer modelo de IA poderoso siempre había sido personal para Musk. En el verano de 2015, él y Larry Page habían tenido una amarga discusión sobre la IA. Donde Page veía la inteligencia artificial como un acelerador que podría elevar a la humanidad, Musk argumentó que la tecnología era más probable que condujera a nuestra destino. Según se informa, los dos dejaron de hablar por eso. Unas semanas más tarde, Musk se reunió con Altman y los demás en el Hotel Rosewood, donde se nació la idea de Openai. Sin embargo, a pesar de los esfuerzos de Openai, Google siguió siendo el líder indiscutible en inteligencia artificial. En 2016, un modelo profundo llamado Alphago había cautivado al mundo al vencer a un campeón mundial de dieciocho veces en GO, un juego antiguo que se considera más complejo que el ajedrez y uno más basado en la intuición humana. Ese mismo año, Deepmind lanzó Wavenet, una red neuronal que aprendió a emular el discurso humano. Musk se quejó al hablar con Altman que habían caído irremediablemente detrás de Google. La gran babosa de dinero que Musk estaba programada para depositar en su cuenta bancaria estaba en duda.

La solución de Musk, como invariablemente es, lo hizo hacerse cargo del esfuerzo. Propuso que tomara una participación mayoritaria en OpenAI y operara la compañía junto con sus otras compañías, incluidas Tesla y SpaceX, o doblaría la startup dentro de Tesla, que ya estaba trabajando en autos autónomos. Tres años después de su esfuerzo, estaba listo para desechar la idea de OpenAi como un laboratorio independiente.

Altman no deseaba trabajar para Musk, un famoso jefe mercurial. Se imaginó que la mayoría de las personas que reclutó para OpenAi tampoco. Altman rechazó la oferta. Musk se alejó de la compañía, dejando a Altman para preocuparse por cubrir los salarios y otros gastos.

“Elon está cortando su apoyo”, dijo Altman a Hoffman. “¿Qué hacemos?” Hoffman se comprometió a invertir otros $ 10 millones en Openai y prometió hacer lo que pudo para ayudarlos a recaudar más. Dentro del año, Altman, de treinta y tres años, renunció como presidente de Y Combinator y asumió el cargo de CEO de OpenAi. Hoffman fue agregado a la Junta Directiva de Operai, y Greg Brockman, cuyo apartamento de San Francisco había servido como primera oficina de OpenAi, asumió el papel de presidente de la junta. Públicamente, Musk dijo que cortó los lazos con OpenAi debido a un conflicto de intereses con Tesla. En privado, declaró que la compañía no tenía ninguna posibilidad de éxito.

Prueba Big Think+ para tu negocio

Involucrar contenido sobre las habilidades que importan, impartidas por expertos de clase mundial.

El dinero continuó siendo un problema para Openai, a pesar de la generosidad de Hoffman. Cuando comencé a escribir sobre tecnología en la década de 1990, el costo de construir una empresa era prohibitivo. Se necesitaba un punto-com a contratar hordas de programadores para construir su sitio e invertir en equipos costosos para alojarlo. Sin embargo, cuando dejé el ritmo de Silicon Valley a mediados de la década de 2000, la economía del ecosistema de inicio se había transformado. La globalización del talento tecnológico permitió a las nuevas empresas aprovechar un grupo internacional de tecnólogos calificados. Los programadores en India o Europa del Este podrían alistarse a una fracción del costo de los equipos estadounidenses. Y la computación en la nube eliminó la necesidad de comprar su propio hardware costoso. Al alquilar energía informática tal como la necesitaban, una empresa joven podría escalar sus costos de infraestructura en línea con su crecimiento. La barrera de entrada para una startup se había reducido hasta el punto de que algunas personas con una computadora portátil podrían desafiar a un gigante.

Ai volcó esa ecuación de regreso a los viejos tiempos. Google estaba tratando de acumular tanto talento AI como pudiera. Facebook también lo fue. Como resultado, los principales investigadores en el campo estaban ordenando un salario de $ 1 millón o más. Operai, por ejemplo, había colocado $ 1.9 millones al año más acciones para atraer a Ilya Sutskever de Google. El pago anual para cualquier persona con cualquier experiencia de IA estaba llegando a muchos cientos de miles. Los costos laborales para cualquier startup de IA serían enormes. Mucho dinero había aumentado en llamas en auges tecnológicos anteriores. Pero el costo de construir sistemas de IA conmocionó a los veteranos.

En público, [Elon] Musk dijo que cortó los lazos con OpenAi debido a un conflicto de intereses con Tesla. En privado, declaró que la compañía no tenía ninguna posibilidad de éxito.

Aún mayor fue el costo del “cálculo”: las compañías de energía informática necesitaban capacitar y ejecutar sus modelos. Las nuevas empresas de IA aún podrían confiar en la nube, pero el entrenamiento de redes neuronales grandes puede requerir semanas, si no meses de tiempo de computadora sin parar. Y parecía estar atordenado que esos costos continuarían aumentando en el futuro previsible. Alrededor de la época del ultimátum de Musk, Operai había hecho un avance que requeriría aún más potencia de computadora. En 2017, un grupo de investigadores dentro de Google publicó lo que coloquialmente se conoció como el documento “Transformador”. Hasta ese momento, OpenAi había estado experimentando con modelos de idiomas grandes (LLM) que aprenden a chatear conversando conversando al digerir publicaciones de Reddit, revisiones de Amazon y otros conjuntos de datos disponibles públicamente. El documento del transformador ofreció un modelo completamente nuevo para enseñar una red neuronal tanto para deducir mejor el significado de un humano como para responder de una manera más natural. Los autores sugirieron que IA imita nuestros propios cerebros y pesa palabras en función de su importancia. En lugar de analizar palabras individuales, el modelo de lenguaje grande de OpenAI, o LLM, evaluaría fragmentos de palabras y usaría contexto para crear la siguiente palabra, como lo haría un humano.

Uso de la arquitectura del transformador para alimentar sus grandes modelos de lenguaje, dijo un informático de OpenAi. Cableado“Hice más progresos en dos semanas que en los últimos dos años”. El modelo Transformer demostró una mejor manera de entrenar un LLM, pero también significaba crear modelos vastos y costosos de ejecutar. “La cantidad de dinero que necesitábamos para tener éxito en la misión es mucho más gigantesco de lo que pensé originalmente”, dijo Altman en una entrevista de 2019.

La solución de Altman era crear una subsidiaria con fines de lucro que respondiera a su tablero sin fines de lucro. Operai buscaría nuevos inversores, pero dejaría en claro que el suyo no era la startup típica. Sellado en la parte superior del acuerdo de financiación, cualquier inversor firmaría fue una advertencia: “Los principios avanzados en la Carta de OpenAI Inc tienen prioridad sobre cualquier obligación de generar ganancias”. La nueva entidad sería lo que Openai describió como una compañía de “ganancias limitadas”, aunque solo un capitalista de riesgo podría considerar las condiciones que se impusieron un límite. Cualquiera que invierta en esta primera ronda comercial no podría hacer más de 100 veces su inversión original.

La compañía explicó el cambio en una breve publicación en su sitio web en 2019. “Los sistemas de IA más dramáticos usan la potencia más computacional”, decía. “Tendremos que invertir miles de millones de dólares en los próximos años en el cálculo de la nube a gran escala, atraer y retener a personas talentosas, y construir supercomputadoras de IA”.

De nuevo, Hoffman demostró ser fundamental. A instancias de Altman, dirigió esta primera ronda comercial escribiendo otro gran cheque a OpenAi. “Sam dijo que sería realmente útil si tomara la iniciativa porque no tenían un plan de negocios, un plan de productos, o cualquiera de esas cosas que a un inversor generalmente le gusta ver antes de poner dinero en un negocio”, dijo. “Realmente fue una apuesta para que pudieran hacer algo mágico con la IA”.

Regístrese para el Big Think Business Newsletter

Aprenda de los pensadores comerciales más grandes del mundo

Continue Reading

Noticias

Operai está listo para que Hollywood acepte su visión

Published

on

Cuando Operai dio a conocer la tecnología llamada Sora el año pasado que permite a las personas generar instantáneamente videos hiperrealistas, como un avance de una película de un astronauta que atraviesa un planeta desierto estéril, en respuesta a un mensaje de texto de solo unas pocas palabras, no fue la calidad de las imágenes que atrapó a Hollywood Off Guente tanto como el rápido crecimiento de la tecnología que se creía inicialmente a años de que se enciendan a la enchufación de ser enchufado en la producción.

Las preguntas se arremolinaron cuando los ejecutivos de los estudios hablaron sobre el lugar de la IA en la industria del entretenimiento: qué procesos de producción pueden racionalizar; ¿Hasta qué punto puede reducir los costos; ¿Cuáles son las barandillas legales y laborales?

Desde entonces, Operai ha estado comprometiendo con Studios sobre Sora, al marcar a casa sus aplicaciones, ya que resuelve los cineastas independientes y sufre pruebas de seguridad. Ahora, la compañía está lanzando a Hollywood mientras se aventura hacia la adopción generalizada de su tecnología.

Rohan Sahai, quien dirige el equipo de productos SORA, le dice The Hollywood Reporter En una entrevista, ha habido un interés considerable de la industria del entretenimiento, sin especificar los contornos de las conversaciones. Él ve la utilización de las herramientas en la mayoría de las etapas de producción a medida que mejoran las herramientas.

“Para algunas de estas compañías de producción más grandes, las que buscan hacia adelante, ven a dónde van las cosas e intentan pensar en cómo cambiar todos sus flujos de trabajo para hacer que se ajuste mejor en este momento”, dice.

El panorama legal actual limita principalmente la adopción del proceso de previsualización, como la concepción y el guión gráfico, que no involucran directamente el producto final. La utilización generalizada de las herramientas de IA en el proceso de fabricación de movimientos dependerá en gran medida de cómo los tribunales aterrizan sobre nuevos asuntos legales planteados por la tecnología. Aún así, los trabajadores de la industria ya están perdiendo empleos, con artistas conceptuales, actores de voz y animadores a la vanguardia de ese desplazamiento. Agbo, la compañía de producción administrada por Vengadores Los directores Joe y Anthony Russo, están haciendo un impulso significativo en el espacio, más recientemente contratando a experto en IA y ex ejecutivo de Apple, el Dr. Dominic Hughes, para servir como su director científico en un intento por racionalizar los procesos de producción.

Entre pocas consideraciones que se encuentran más despliegue de IA se encuentra el espectro de una decisión judicial de que el uso de materiales con derechos de autor para capacitar a los sistemas de IA constituye una infracción. Otro factor es que las obras generadas por IA no son elegibles para la protección de los derechos de autor, lo que limita la explotación ya que ingresarían al dominio público.

Operai es optimista sobre un futuro en el que su tecnología no está limitada por las barandillas legales o laboristas, ya que continúa luchando contra las demandas de los creadores. Sus conversaciones con Hollywood reflejan esa confianza.

“Estamos dando un derrame cerebral más amplio aquí en términos de lo que queremos que la gente haga con estos modelos en términos de creación y narración de historias”, dice Sahai. En lugar de “perfeccionar una determinada parte del [production] Pipeline “, agrega que la compañía está teniendo una visión holística al vender Hollywood en la tecnología ya que” a largo plazo, la gente se dará cuenta de que es mucho más poderoso que simplemente aprovechar un flujo de trabajo de VFX “.

“Estamos profundamente comprometidos con la industria en su conjunto para obtener sus comentarios, incluidos los estudios”, dijo Openii en un comunicado.

El 19 de marzo, el fabricante de chatgpt proyectó 11 cortometrajes hechos con Sora por cineastas independientes en Brain Dead Studios, un cine de modernas en West Hollywood en Fairfax Avenue, en un intento por exhibir su tecnología. Esas películas mostraron las limitaciones de las herramientas mientras insinuaban su potencial.

Ninguno de los títulos incorporó un diálogo extenso entre personajes. Las narraciones eran escasas a inexistentes, con más de una persona comentando después de las proyecciones, algunas de las películas estaban más cerca de los comerciales que los cortometrajes. Los personajes parecían estar sentados en el aire en un momento en una película sobre las desventuras de los Caballeros.

Una multitud ve “Solace”, una película generada por IA que incorpora imágenes surrealistas en Sora Selects, una proyección de cortometrajes realizados por Sora de OpenAi.

Opadai

Aún así, la posibilidad de que Sora pueda racionalizar el flujo de trabajo VFX, un área de producción conocida por márgenes especialmente delgados, era evidente. Los títulos seleccionados para la proyección presentaban una variedad de tomas generadas por la herramienta que exhibe por qué está cautivado Hollywood: un pez lleno de ojos; una vista oceánica besada por una serie de soles de sol; Una silueta de un hombre tragado por un vórtice de periódicos. Algunos artistas de VFX ya se están inclinando a la IA, trabajando en torno a ciertas limitaciones legales al capacitar a los sistemas de código abierto en sus propios trabajos.

Verena Puhm, una cineasta de IA, dijo que comenzó su cortometraje sobre una granja lechera en un futuro distópico destinado a ser una crítica en la producción y explotación en masa con 15 horas restantes antes de que cerrara la ventana de aplicación. Ella dijo que su proyecto está destinado a crear “un poco de conciencia sobre lo que estamos consumiendo”.

OpenAI ya no revela las fuentes de datos utilizados para entrenar sus sistemas. Artistas, autores y publicaciones han demandado a la compañía liderada por Sam Altman por las acusaciones de que ilegalmente robó su trabajo sin consentimiento y compensación. Los tribunales que dictaminan contra el uso justo, una doctrina legal que permite la utilización de trabajos con derechos de autor sin una licencia, podría tener importantes implicaciones para el líder de la IA. La semana pasada, cientos de cifras principales de Hollywood firmaron una carta que se apelación contra Operai y Google al gobierno de los Estados Unidos para permitir que sus modelos de IA entrenen en trabajos con derechos de autor.

Asistió a la proyección había un ejecutivo en Universal Pictures, así como en Disney, que llegó a su capacidad personal y no como representante del estudio. Un empleado de UTA en la división de marketing de entretenimiento de la agencia también estaba en la multitud.

Alton Glass, miembro del Gremio de Directores de América que asistió a la proyección, dijo que “los flujos de trabajo cambiarán” con el advenimiento de la IA. Hizo hincapié en: “La oportunidad vendrá de eso”.

La adopción de IA en Hollywood ha sido lenta pero está progresando constantemente. El año pasado, Lionsgate anunció una asociación por primera vez con Runway que hará que la startup de IA con sede en Nueva York entrenara a un nuevo modelo de IA generativo en contenido propiedad del estudio, que se utilizará para ayudar con los procesos de producción detrás de escena. Bajo el acuerdo sin efectivo, Runway tendrá acceso a una parte de los títulos del estudio para crear un modelo diseñado exclusivamente para el uso de Lionsgate, con la esperanza de que pueda conectarse a diferentes partes de la tubería de producción, como el proceso de guión gráfico y para ayudar con el diseño del trabajo VFX, según una persona familiarizada con el acuerdo. Esto fue seguido por Blumhouse asociándose con Meta en una serie de cortometrajes producidos con la ayuda de la película Gen, que crea video y audio correspondiente, ya que prueba las AI Waters y James Cameron uniendo la junta directiva de Stability AI.

“Están buscando estudios de casos”, dice Rob Rosenberg, ex vicepresidente ejecutivo de Showtime Networks y asesor general. “Están buscando una prueba de concepto de que puedan dar la vuelta y decir que reducimos los costos de producción en un X por ciento”.

Sora se puso a disposición para uso público en diciembre después de someterse a pruebas de seguridad por parte de expertos en información errónea, contenido de odio y sesgo. Los cineastas, artistas visuales y diseñadores también recibieron acceso para comentarios sobre mejoras. Desde entonces, los creadores han estado presentando proyectos generados por IA para una recepción mixta, con algunas estéticas criticantes que dicen que se acercan al extraño Valle y otros que acogen la creación casi instantánea de imágenes y efectos listos para películas.

Similar a cómo Operai se está involucrando con los cineastas independientes, ya que despliega Sora, Meeka Bondy, presidente de la práctica de entretenimiento de Perkins Coie y el ex vicepresidente senior de asuntos legales de HBO, dice que las compañías de IA cortejan a Hollywood están buscando mostrar a los creadores que su tecnología no es el Boogeyman que ha sido representado por los críticos. Ella agrega: ‘Destaca su visibilidad, pero también creo que les da legitimidad. Si James Cameron lo está haciendo, sin embargo, es que no están tratando de reemplazar el equipo de producción “.

La narración avanzada por OpenAI para fomentar la adopción de sus herramientas de IA ha girado en torno a la “democratización” de la industria del entretenimiento. Con las herramientas, los creadores enfrentan barreras más bajas para el cine que, algunos pueden decir, ayudarán a realizar sus ideas a la pantalla. A principios de este mes, se anunció que James Lamont y Jon Foster, el equipo de escritura detrás Paddington en Perúestán en cuenta para una película animada de IA Criticz. El título es una adaptación de larga duración del cortometraje del mismo nombre de Vertigo Films, a la que se une AI Creatives en Native Foreign en el proyecto. Esa breve, escrita y dirigida por el especialista creativo de Operai Chad Nelson, surgió como una de las primeras películas de IA en combinar imágenes generadas por la herramienta Dall-E de Openai con técnicas de animación tradicionales y luego se remasterizó con Sora. Los productores dijeron que esperan “establecer un nuevo punto de referencia para la narración generativa que emparejan la creatividad impulsada por los humanos y las técnicas de animación tradicionales con la última tecnología de IA”.

Pero estos puntos de conversación, que subrayan la oportunidad presentada a algunos creativos que han podido avanzar en sus carreras con las herramientas de inteligencia artificial, brillar sobre aquellos que han perdido y continuarán perdiendo trabajo debido a la tecnología. Los artistas conceptuales y los trabajadores en VFX, entre otros puestos que son vistos como incendios por IA, están haciendo un balance de desplazamiento potencial en el futuro si la tecnología avanza al ritmo que ha sido.

Un estudio encargado el año pasado por la Asociación de Arte Conceptual. Y el gremio de animación que encuestó a 300 líderes en toda la industria del entretenimiento descubrió que las tres cuartas partes de los encuestados indicaron que las herramientas de IA respaldaban la eliminación, reducción o consolidación de empleos en sus empresas. Durante los próximos tres años, estimó que casi 204,000 posiciones se verán afectadas negativamente. A la vanguardia del desplazamiento: ingenieros de sonido, actores de voz, artistas conceptuales y empleados en puestos de nivel de entrada, según el estudio. Los efectos visuales y otros trabajos de postproducción son particularmente vulnerables.

Sora tiene limitaciones, tecnológicas y legales, que restringirán sus aplicaciones en la industria del entretenimiento. Aún así, tiene un potencial muy real en la producción en industrias auxiliares, incluidos los anuncios y el trabajo de video encargado por las corporaciones, que presentan menos limitaciones laborales para adoptar la tecnología. Entre las consideraciones sobre el impacto de la tecnología en Hollywood estarán efectos aguas abajo para los creativos que dependen de dicho trabajo para la fuente principal de sus ingresos. Se espera que tenga un impacto similar en los estadios de sonido y las compañías de alquiler de equipos, ya que la tecnología probablemente fomentará menos tripulación de producción.

Continue Reading

Trending