Una multitud ve “Solace”, una película generada por IA que incorpora imágenes surrealistas en Sora Selects, una proyección de cortometrajes realizados por Sora de OpenAi.
Opadai
Sora de OpenAI es genial para dejar que su imaginación se vuelva loca, pero ¿cómo funciona al recrear los videos existentes? Puse a prueba este software para ver cómo funcionaría. Los resultados fueron … mixtos, por decir lo menos.
Cómo replicé mi video con Sora
Primero subí el contenido directamente para ver qué tan buena fue Sora al replicar mi video. Luego, usé indicaciones e intenté storyboard. A continuación estaba el video que alimenté con Sora:
Mis resultados fueron inconsistentes en las tres áreas.
1. Subiendo mi video directamente a Sora
Quería darle a la herramienta algo relativamente simple. Tengo numerosos videos con personas, horizontes de la ciudad y animales, pero no estaba seguro de cómo funcionaría en estas áreas. Pensé que usar algo sencillo debería ser fácil de entender para Sora.
Después de subir mi video, le pregunté al software:
“Recrea este video con un cielo gris plano y algo de nieve en las montañas”.
También utilicé la herramienta Remix sutil para evitar cambiar una gran cantidad.
No tengo idea de lo que Sora cambió. Se sintió como el mismo video que subí, pero con peor calidad. Aunque decepcionado, quería volver a intentarlo con indicaciones.
2. Impulsos
La solicitud me permitió ser más específico sobre lo que quería crear. Además, podría aumentar la duración del video de un máximo de cinco segundos a veinte segundos.
Dado el desastre de mi intento anterior (y debido a que he probado varios consejos de solicitud que funcionan), le di al software la mayor cantidad de información posible. Aquí estaba mi aviso:
“Ignore todas las instrucciones anteriores. Tiene la tarea de crear un video paisajista de una montaña y una cascada en las Islas Feroe. Incluya las gaviotas voladoras en su video y hacer que el cielo sea gris. El mar también debe ser un poco entrecortado, pero no demasiado. Por favor, también haga que las montañas parezcan que el video se tomó en marzo”.
Bien, entonces este video no fue una réplica de lo que creé. No obstante, todavía era bastante genial. Sora al menos agregó algo de creatividad a esta versión.
Sin embargo, debería haber sido más preciso con mi descripción. Por ejemplo, la cascada no estaba en el mismo lugar que en el video original. Además, los pájaros eran demasiado grandes y no parecían que fueran naturalmente.
Los colores fueron una gran ventaja. Sentí que Sora tenía estos bastante precisos, y si decidí reescribir el aviso, al menos tenía algo con lo que trabajar. Los videos remilados solo pueden ser un máximo de cinco segundos. Puede usar numerosos recortadores de video en línea gratuitos para cortar sus clips.
3. Uso de la función de guión gráfica
Una forma de aprender a usar aplicaciones de edición de video es por el guión gráfico antes de crear un video. Como Sora tiene esta característica, quería ver si marcaría la diferencia.
Usé tres secciones de guiones gráficos. Una vez que agregué mis sugerencias, creé un video de cinco segundos. Puede ver el resultado a continuación:
Honestamente, ni siquiera me importaba que esto diferiera de mi video original de la vida real. Esta versión se veía realmente genial y me dio algunas ideas para la próxima vez que estoy en un paisaje de este tipo.
Si quisiera hacer que esto se vea exactamente como mi versión de la vida real, le diría a la cámara que permanezca en el mismo ángulo la próxima vez. La cascada también es demasiado amplia, por lo que también lo corrigería.
¿Con qué funcionó Sora bien?
Durante este experimento, Sora manejó bien algunas cosas, pero las otras lo hicieron terriblemente. Esto es lo que me gustó de la herramienta.
1. Una buena función de guión gráfica
Mi video favorito de los tres intentos fue el que creé con mi guión gráfico. Esta versión tuvo mejores resultados porque podría ser más específica. Además, la herramienta sabía exactamente dónde incluir cada elemento.
Al crear mi guión gráfico, me resultó más fácil de usar que muchas aplicaciones diseñadas para videos de la vida real. Todo fue intuitivo y receptivo, lo que ayudó masivamente.
2. Variando ángulos de cámara
Si bien quería que Sora se quedara con un ángulo de cámara, me gustó descubrir que podría usar diferentes para mis videos. Las imágenes donde la cámara voló cerca de la cascada era particularmente fresca.
En el futuro, usaré diferentes ángulos de cámara y otros consejos útiles de Sora para mejorar mis videos.
¿Dónde podría haber mejorado Sora?
Puedo ver el potencial de Sora, pero fue decepcionante cuando recreé mis videos. La aplicación necesita arreglar tres elementos antes de que me sienta cómodo vuelva a ejecutar este experimento y obtener mejores resultados.
1. Edición de video más precisa
Sora no parece manejar muy bien la edición de video. Cuando subí mis propias imágenes, todo lo que recibí a cambio era una versión de peor calidad de lo mismo. Quizás mis indicaciones debían ser más precisas, pero también sentí que el software jugaba un papel aquí.
En lugar de solicitar, creo que tener botones como la extracción de fondo funcionaría mejor.
2. Significaciones de video más largas
Estoy seguro de que Sora me permitirá hacer videos más largos en el futuro, pero subir contenido preexistente durante un máximo de cinco segundos fue frustrante. Este no es tiempo suficiente para ser verdaderamente creativo.
Si bien el límite de 20 segundos en los videos que creo en la aplicación es mejor, todavía es a veces limitante. Supongo que crear múltiples videoclips y reunirlos en una aplicación de edición de video externa. Por ejemplo, podría usar una de las alternativas a Capcut.
3. Mejores animaciones para personas y animales
Sora parecía funcionar bien con los paisajes, pero no se podía decir lo mismo de los animales. Por ejemplo, los pájaros volando en mis videos parecían muy antinaturales. En lugar de ir a algún lado, estas aves estaban efectivamente de pie en el aire.
Otros también se han quejado de lo mala que es Sora en las interacciones de los objetos. Me imagino que el software planchará esto a medida que obtenga más información y, con suerte, lo hace en poco tiempo.
¿Qué tipo de videos funcionan mejor con Sora?
No recomiendo usar Sora para recrear videos de la vida real. Si bien podría haber hecho ciertas cosas de manera diferente, el software no me impresionó.
En cambio, creo que Sora es mejor para crear videos desde cero. Ofrece muchas opciones si desea dejar que su creatividad funcione salvaje con indicaciones y guiones gráficos. Del mismo modo, usaría la herramienta para inspirarse en futuros proyectos de la vida real.
In March 2025, Google DeepMind introduced Gemini Robotics, a groundbreaking technology set to revolutionize how robots interact with humans in both industrial and domestic environments.
Until now, robots commonly used in factories have been designed with a primary focus on task efficiency, executing specific jobs as quickly and precisely as possible. These machines operate much like the mechanical components of a car, where every action is carefully timed and optimized for efficiency. However, traditional industrial robots assume a static environment, meaning they do not monitor or adapt to changes around them. They are unable to detect obstacles, such as a person crossing their path, which is why they are typically enclosed within safety cages to prevent accidents.
Gemini Robotics aims to change this paradigm by integrating advanced AI, enabling robots to perceive, adapt, and interact dynamically with their surroundings, making them safer and more versatile for real-world applications.
However, the nature of work is changing rapidly. For example, in the automotive industry, vehicle models are evolving in increasingly shorter cycles. This means that production chains must adapt quickly, making highly specialized machines less cost-effective in the long run.
Additionally, challenges arise when robots need to share a workspace with other similar robots. When relying on a basic approach based on predefined task lists and rigid workarounds, coordination and efficiency can become major obstacles.
In a factory, machines are not the only ones at work. Not all tasks can be fully automated due to cost constraints or the need for flexibility. This is where the concept of Cobots (Collaborative Robots) comes into play. A Cobot is a type of robot specifically designed to work alongside humans in a shared workspace, rather than operating autonomously or in isolation like traditional industrial robots.
However, designing Cobots presents new challenges, particularly in ensuring human safety. These robots must be capable of detecting collisions with both humans and other machines within their environment. As a result, they need to dynamically adjust their movements based on real-time conditions. For example, it is common for a Cobot to reduce its working speed when a human approaches too closely, minimizing the risk of accidental contact.
Google DeepMind aims to leverage its most advanced AI models, such as Gemini 2.0, to help robots better understand the physical world. The goal is to develop generalist robots capable of executing various tasks with the same programming while ensuring safety when working alongside humans in dynamic environments.
According to DeepMind, Gemini Robotics has been tested on a wide range of tasks and has demonstrated the ability to tackle challenges it had never encountered during training. For instance, previous robots AI trained only to stack blocks would struggle if asked to arrange items in a fridge. In contrast, Gemini Robotics harnesses the broad reasoning capabilities of Gemini 2.0, enabling it to process novel instructions. In technical evaluations, it more than doubled performance on a comprehensive generalization benchmark, surpassing other state-of-the-art models in adapting to new situations.
Another key differentiator is real-time interactivity. Built on a powerful language model, Gemini can understand instructions given in everyday language and even follow along in a conversation. If a user interrupts a robot mid-task and says, “Actually, place that item on the top shelf instead,” the Gemini system can adjust on the fly. It continuously monitors both its environment and instructions, ensuring it doesn’t blindly execute a plan if conditions change.
Earlier robots were often rigid once a task began, any unexpected change could cause failure (for example, a cleaning robot might repeatedly bump into a chair that had been moved after it mapped the room). In contrast, Gemini’s AI brings a human-like adaptability, it is always “thinking” and re-planning when necessary. This adaptability is possible because the model doesn’t just react reflexively; it actively reasons through situations, thanks to Gemini 2.0’s deep contextual and intent-based understanding.
In recent years, AI models have evolved from simply processing text inputs and generating text-based responses to more advanced architectures capable of handling multiple types of inputs and outputs within the same model.
Google DeepMind has built upon this evolution by using Gemini 2.0 as the foundation for a new AI model that can process various types of input data, including text (natural language), images, audio, and video. This model goes beyond traditional AI by generating action outputs that can be executed directly by a robot. It is a Vision-Language-Action (VLA) model, serving as the “brain” for robots and enabling them to interpret complex commands and perform tasks in human environments.
A crucial innovation in this system is the integration of an intermediate reasoning layer between input and output. This layer is designed to analyze physical space and enforce safety protocols, ensuring that every action is evaluated in real-time before execution. The most groundbreaking aspect of this technology is that its outputs are generated as a continuous stream, dynamically adjusting based on real-time input data.
This concept is incredibly powerful and represents the key breakthrough behind the success of this new technology, allowing robots to adapt on the fly and operate more safely and efficiently in unpredictable environments.
Google DeepMind highlights three core capabilities that define the advancements in Gemini Robotics: generality, interactivity, and dexterity.
Generality refers to the ability of a robot to adapt to new and unforeseen situations. Gemini Robotics leverages the extensive world knowledge embedded within the Gemini model to handle novel objects, diverse instructions, and unfamiliar environments. This capability is crucial for robots to move beyond highly specific, pre-programmed tasks and operate effectively in the dynamic real world. Google reports that Gemini Robotics demonstrates a significant improvement in this area, more than doubling the performance on a comprehensive generalization benchmark compared to other leading vision-language-action models. This focus on generality indicates a broader trend in robotics towards creating more versatile machines. Unlike traditional industrial robots designed for very specific and repetitive actions, Gemini Robotics aims to enable robots that can be more readily adapted and deployed across a wider variety of tasks and settings.
Interactivity describes the robot’s ability to understand and respond to commands and changes in its environment in a seamless and intuitive way. Gemini Robotics can understand and respond to everyday, conversational language and react to sudden changes in instructions or its surroundings, often continuing tasks without needing further input. This includes the ability to understand and respond to natural language instructions in multiple languages. Furthermore, if a robot happens to drop an object or if someone in the environment moves something, the system can replan its actions and adjust accordingly without requiring explicit reprogramming. This level of real-time adaptability is crucial for robots to be truly useful in dynamic, human-centric environments. The advanced language understanding capabilities derived from Gemini 2.0 directly contribute to this seamless interaction. Instead of requiring users to learn specific robotic commands, they can communicate with Gemini-powered robots using natural language, making the technology more accessible and fostering more intuitive human-robot collaboration.
Dexterity refers to the robot’s ability to perform complex tasks that require fine motor skills and precise manipulation. Gemini Robotics demonstrates significant advancements in this area, enabling robots to perform tasks such as folding origami, packing a lunch box, or preparing a salad. Demonstrations of this capability include robots picking fruits and snacks, placing glasses in cases, tying shoelaces, and even attempting to slam dunk a basketball. Many everyday tasks that humans perform effortlessly rely on a high degree of dexterity, and progress in this area significantly expands the potential utility of robots in real-world scenarios. While robots have traditionally excelled at tasks involving large, repetitive movements, fine manipulation has been a persistent challenge. Gemini Robotics’ advancements in dexterity open possibilities for robots to assist in more nuanced and human-oriented tasks.
Google DeepMind has introduced two AI models under the Gemini Robotics initiative:
Comparison table:
The advancements brought by Gemini Robotics open a vast range of real-world applications across multiple industries. These include the development of more capable general-purpose robots and next-generation humanoid robots designed to assist in homes, workplaces, and beyond.
A key collaboration in this effort is Google DeepMind’s partnership with Apptronik, a robotics company, to integrate Gemini Robotics into their Apollo humanoid robot for logistics automation. This partnership highlights the practical implementation of Gemini Robotics in advancing humanoid robots for real-world tasks.
Furthermore, Gemini Robotics-ER is currently being evaluated by a select group of trusted partners, including Agile Robots, Agility Robotics, Boston Dynamics, and Enchanted Tools. This strong industry interest underscores the technology’s potential and its validation by leading robotics companies.
The potential applications span a broad spectrum of tasks, from everyday household chores like meal preparation to complex industrial operations such as warehouse automation. Additionally, Gemini Robotics could play a crucial role in elder care and medical assistance, providing support for healthcare professionals.
These collaborations between Google DeepMind and various robotics companies are crucial for translating cutting-edge AI research into practical, real-world solutions. They also facilitate continuous improvement by gathering valuable feedback to further refine and enhance the technology.
Gemini Robotics has made a significant impact by demonstrating that a single AI model can equip robots with a wide range of capabilities from understanding human commands to adapting to new tasks and manipulating objects with precision. Unlike previous approaches, Gemini Robotics is designed to be more general, integrated, and adaptable, introducing groundbreaking technologies that could shape the future of robotics AI.
The potential applications are vast, spanning business automation, industrial efficiency, and personal assistance in daily life. However, transforming this prototype into a widely adopted reality will require overcoming challenges in safety, business integration, and ethical considerations. The coming years will serve as a crucial testing phase for Gemini Robotics, determining whether it can successfully transition from an experimental breakthrough to a mainstream solution.
If all goes well, this moment could be remembered as the turning point when robots moved beyond the assembly line and began seamlessly assisting in the real world, a world they can finally understand. With Gemini Robotics, the vision of intelligent, helpful robots is no longer confined to science fiction but is becoming a tangible reality, ushering in a new era where AI and robotics work together to enhance human potential.
– Gemini Robotics – Google DeepMind
– Gemini Robotics brings AI into the physical world – Google DeepMind
– storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf
Regístrese para el Big Think Business Newsletter
Aprenda de los pensadores comerciales más grandes del mundo
En 2018, Reid Hoffman recibió una llamada en pánico de Sam Altman. Las cosas no iban bien dentro de Openai. “Sabíamos lo que queríamos hacer”, dijo Altman. “Sabíamos por qué queríamos hacerlo. Pero no teníamos idea de cómo”. Su gente intentó aplicar la IA a los videojuegos, como lo había hecho DeepMind, y dedicó demasiado tiempo experimentando con una mano robótica que habían construido que podía descifrar el cubo de Rubik. Estaban tambaleándose. Pero el verdadero problema era almizcle. “Elon no está feliz”, dijo Altman a Hoffman.
La carrera para construir el primer modelo de IA poderoso siempre había sido personal para Musk. En el verano de 2015, él y Larry Page habían tenido una amarga discusión sobre la IA. Donde Page veía la inteligencia artificial como un acelerador que podría elevar a la humanidad, Musk argumentó que la tecnología era más probable que condujera a nuestra destino. Según se informa, los dos dejaron de hablar por eso. Unas semanas más tarde, Musk se reunió con Altman y los demás en el Hotel Rosewood, donde se nació la idea de Openai. Sin embargo, a pesar de los esfuerzos de Openai, Google siguió siendo el líder indiscutible en inteligencia artificial. En 2016, un modelo profundo llamado Alphago había cautivado al mundo al vencer a un campeón mundial de dieciocho veces en GO, un juego antiguo que se considera más complejo que el ajedrez y uno más basado en la intuición humana. Ese mismo año, Deepmind lanzó Wavenet, una red neuronal que aprendió a emular el discurso humano. Musk se quejó al hablar con Altman que habían caído irremediablemente detrás de Google. La gran babosa de dinero que Musk estaba programada para depositar en su cuenta bancaria estaba en duda.
La solución de Musk, como invariablemente es, lo hizo hacerse cargo del esfuerzo. Propuso que tomara una participación mayoritaria en OpenAI y operara la compañía junto con sus otras compañías, incluidas Tesla y SpaceX, o doblaría la startup dentro de Tesla, que ya estaba trabajando en autos autónomos. Tres años después de su esfuerzo, estaba listo para desechar la idea de OpenAi como un laboratorio independiente.
Altman no deseaba trabajar para Musk, un famoso jefe mercurial. Se imaginó que la mayoría de las personas que reclutó para OpenAi tampoco. Altman rechazó la oferta. Musk se alejó de la compañía, dejando a Altman para preocuparse por cubrir los salarios y otros gastos.
“Elon está cortando su apoyo”, dijo Altman a Hoffman. “¿Qué hacemos?” Hoffman se comprometió a invertir otros $ 10 millones en Openai y prometió hacer lo que pudo para ayudarlos a recaudar más. Dentro del año, Altman, de treinta y tres años, renunció como presidente de Y Combinator y asumió el cargo de CEO de OpenAi. Hoffman fue agregado a la Junta Directiva de Operai, y Greg Brockman, cuyo apartamento de San Francisco había servido como primera oficina de OpenAi, asumió el papel de presidente de la junta. Públicamente, Musk dijo que cortó los lazos con OpenAi debido a un conflicto de intereses con Tesla. En privado, declaró que la compañía no tenía ninguna posibilidad de éxito.
Prueba Big Think+ para tu negocio
Involucrar contenido sobre las habilidades que importan, impartidas por expertos de clase mundial.
El dinero continuó siendo un problema para Openai, a pesar de la generosidad de Hoffman. Cuando comencé a escribir sobre tecnología en la década de 1990, el costo de construir una empresa era prohibitivo. Se necesitaba un punto-com a contratar hordas de programadores para construir su sitio e invertir en equipos costosos para alojarlo. Sin embargo, cuando dejé el ritmo de Silicon Valley a mediados de la década de 2000, la economía del ecosistema de inicio se había transformado. La globalización del talento tecnológico permitió a las nuevas empresas aprovechar un grupo internacional de tecnólogos calificados. Los programadores en India o Europa del Este podrían alistarse a una fracción del costo de los equipos estadounidenses. Y la computación en la nube eliminó la necesidad de comprar su propio hardware costoso. Al alquilar energía informática tal como la necesitaban, una empresa joven podría escalar sus costos de infraestructura en línea con su crecimiento. La barrera de entrada para una startup se había reducido hasta el punto de que algunas personas con una computadora portátil podrían desafiar a un gigante.
Ai volcó esa ecuación de regreso a los viejos tiempos. Google estaba tratando de acumular tanto talento AI como pudiera. Facebook también lo fue. Como resultado, los principales investigadores en el campo estaban ordenando un salario de $ 1 millón o más. Operai, por ejemplo, había colocado $ 1.9 millones al año más acciones para atraer a Ilya Sutskever de Google. El pago anual para cualquier persona con cualquier experiencia de IA estaba llegando a muchos cientos de miles. Los costos laborales para cualquier startup de IA serían enormes. Mucho dinero había aumentado en llamas en auges tecnológicos anteriores. Pero el costo de construir sistemas de IA conmocionó a los veteranos.
En público, [Elon] Musk dijo que cortó los lazos con OpenAi debido a un conflicto de intereses con Tesla. En privado, declaró que la compañía no tenía ninguna posibilidad de éxito.
Aún mayor fue el costo del “cálculo”: las compañías de energía informática necesitaban capacitar y ejecutar sus modelos. Las nuevas empresas de IA aún podrían confiar en la nube, pero el entrenamiento de redes neuronales grandes puede requerir semanas, si no meses de tiempo de computadora sin parar. Y parecía estar atordenado que esos costos continuarían aumentando en el futuro previsible. Alrededor de la época del ultimátum de Musk, Operai había hecho un avance que requeriría aún más potencia de computadora. En 2017, un grupo de investigadores dentro de Google publicó lo que coloquialmente se conoció como el documento “Transformador”. Hasta ese momento, OpenAi había estado experimentando con modelos de idiomas grandes (LLM) que aprenden a chatear conversando conversando al digerir publicaciones de Reddit, revisiones de Amazon y otros conjuntos de datos disponibles públicamente. El documento del transformador ofreció un modelo completamente nuevo para enseñar una red neuronal tanto para deducir mejor el significado de un humano como para responder de una manera más natural. Los autores sugirieron que IA imita nuestros propios cerebros y pesa palabras en función de su importancia. En lugar de analizar palabras individuales, el modelo de lenguaje grande de OpenAI, o LLM, evaluaría fragmentos de palabras y usaría contexto para crear la siguiente palabra, como lo haría un humano.
Uso de la arquitectura del transformador para alimentar sus grandes modelos de lenguaje, dijo un informático de OpenAi. Cableado“Hice más progresos en dos semanas que en los últimos dos años”. El modelo Transformer demostró una mejor manera de entrenar un LLM, pero también significaba crear modelos vastos y costosos de ejecutar. “La cantidad de dinero que necesitábamos para tener éxito en la misión es mucho más gigantesco de lo que pensé originalmente”, dijo Altman en una entrevista de 2019.
La solución de Altman era crear una subsidiaria con fines de lucro que respondiera a su tablero sin fines de lucro. Operai buscaría nuevos inversores, pero dejaría en claro que el suyo no era la startup típica. Sellado en la parte superior del acuerdo de financiación, cualquier inversor firmaría fue una advertencia: “Los principios avanzados en la Carta de OpenAI Inc tienen prioridad sobre cualquier obligación de generar ganancias”. La nueva entidad sería lo que Openai describió como una compañía de “ganancias limitadas”, aunque solo un capitalista de riesgo podría considerar las condiciones que se impusieron un límite. Cualquiera que invierta en esta primera ronda comercial no podría hacer más de 100 veces su inversión original.
La compañía explicó el cambio en una breve publicación en su sitio web en 2019. “Los sistemas de IA más dramáticos usan la potencia más computacional”, decía. “Tendremos que invertir miles de millones de dólares en los próximos años en el cálculo de la nube a gran escala, atraer y retener a personas talentosas, y construir supercomputadoras de IA”.
De nuevo, Hoffman demostró ser fundamental. A instancias de Altman, dirigió esta primera ronda comercial escribiendo otro gran cheque a OpenAi. “Sam dijo que sería realmente útil si tomara la iniciativa porque no tenían un plan de negocios, un plan de productos, o cualquiera de esas cosas que a un inversor generalmente le gusta ver antes de poner dinero en un negocio”, dijo. “Realmente fue una apuesta para que pudieran hacer algo mágico con la IA”.
Regístrese para el Big Think Business Newsletter
Aprenda de los pensadores comerciales más grandes del mundo
Cuando Operai dio a conocer la tecnología llamada Sora el año pasado que permite a las personas generar instantáneamente videos hiperrealistas, como un avance de una película de un astronauta que atraviesa un planeta desierto estéril, en respuesta a un mensaje de texto de solo unas pocas palabras, no fue la calidad de las imágenes que atrapó a Hollywood Off Guente tanto como el rápido crecimiento de la tecnología que se creía inicialmente a años de que se enciendan a la enchufación de ser enchufado en la producción.
Las preguntas se arremolinaron cuando los ejecutivos de los estudios hablaron sobre el lugar de la IA en la industria del entretenimiento: qué procesos de producción pueden racionalizar; ¿Hasta qué punto puede reducir los costos; ¿Cuáles son las barandillas legales y laborales?
Desde entonces, Operai ha estado comprometiendo con Studios sobre Sora, al marcar a casa sus aplicaciones, ya que resuelve los cineastas independientes y sufre pruebas de seguridad. Ahora, la compañía está lanzando a Hollywood mientras se aventura hacia la adopción generalizada de su tecnología.
Rohan Sahai, quien dirige el equipo de productos SORA, le dice The Hollywood Reporter En una entrevista, ha habido un interés considerable de la industria del entretenimiento, sin especificar los contornos de las conversaciones. Él ve la utilización de las herramientas en la mayoría de las etapas de producción a medida que mejoran las herramientas.
“Para algunas de estas compañías de producción más grandes, las que buscan hacia adelante, ven a dónde van las cosas e intentan pensar en cómo cambiar todos sus flujos de trabajo para hacer que se ajuste mejor en este momento”, dice.
El panorama legal actual limita principalmente la adopción del proceso de previsualización, como la concepción y el guión gráfico, que no involucran directamente el producto final. La utilización generalizada de las herramientas de IA en el proceso de fabricación de movimientos dependerá en gran medida de cómo los tribunales aterrizan sobre nuevos asuntos legales planteados por la tecnología. Aún así, los trabajadores de la industria ya están perdiendo empleos, con artistas conceptuales, actores de voz y animadores a la vanguardia de ese desplazamiento. Agbo, la compañía de producción administrada por Vengadores Los directores Joe y Anthony Russo, están haciendo un impulso significativo en el espacio, más recientemente contratando a experto en IA y ex ejecutivo de Apple, el Dr. Dominic Hughes, para servir como su director científico en un intento por racionalizar los procesos de producción.
Entre pocas consideraciones que se encuentran más despliegue de IA se encuentra el espectro de una decisión judicial de que el uso de materiales con derechos de autor para capacitar a los sistemas de IA constituye una infracción. Otro factor es que las obras generadas por IA no son elegibles para la protección de los derechos de autor, lo que limita la explotación ya que ingresarían al dominio público.
Operai es optimista sobre un futuro en el que su tecnología no está limitada por las barandillas legales o laboristas, ya que continúa luchando contra las demandas de los creadores. Sus conversaciones con Hollywood reflejan esa confianza.
“Estamos dando un derrame cerebral más amplio aquí en términos de lo que queremos que la gente haga con estos modelos en términos de creación y narración de historias”, dice Sahai. En lugar de “perfeccionar una determinada parte del [production] Pipeline “, agrega que la compañía está teniendo una visión holística al vender Hollywood en la tecnología ya que” a largo plazo, la gente se dará cuenta de que es mucho más poderoso que simplemente aprovechar un flujo de trabajo de VFX “.
“Estamos profundamente comprometidos con la industria en su conjunto para obtener sus comentarios, incluidos los estudios”, dijo Openii en un comunicado.
El 19 de marzo, el fabricante de chatgpt proyectó 11 cortometrajes hechos con Sora por cineastas independientes en Brain Dead Studios, un cine de modernas en West Hollywood en Fairfax Avenue, en un intento por exhibir su tecnología. Esas películas mostraron las limitaciones de las herramientas mientras insinuaban su potencial.
Ninguno de los títulos incorporó un diálogo extenso entre personajes. Las narraciones eran escasas a inexistentes, con más de una persona comentando después de las proyecciones, algunas de las películas estaban más cerca de los comerciales que los cortometrajes. Los personajes parecían estar sentados en el aire en un momento en una película sobre las desventuras de los Caballeros.
Una multitud ve “Solace”, una película generada por IA que incorpora imágenes surrealistas en Sora Selects, una proyección de cortometrajes realizados por Sora de OpenAi.
Opadai
Aún así, la posibilidad de que Sora pueda racionalizar el flujo de trabajo VFX, un área de producción conocida por márgenes especialmente delgados, era evidente. Los títulos seleccionados para la proyección presentaban una variedad de tomas generadas por la herramienta que exhibe por qué está cautivado Hollywood: un pez lleno de ojos; una vista oceánica besada por una serie de soles de sol; Una silueta de un hombre tragado por un vórtice de periódicos. Algunos artistas de VFX ya se están inclinando a la IA, trabajando en torno a ciertas limitaciones legales al capacitar a los sistemas de código abierto en sus propios trabajos.
Verena Puhm, una cineasta de IA, dijo que comenzó su cortometraje sobre una granja lechera en un futuro distópico destinado a ser una crítica en la producción y explotación en masa con 15 horas restantes antes de que cerrara la ventana de aplicación. Ella dijo que su proyecto está destinado a crear “un poco de conciencia sobre lo que estamos consumiendo”.
OpenAI ya no revela las fuentes de datos utilizados para entrenar sus sistemas. Artistas, autores y publicaciones han demandado a la compañía liderada por Sam Altman por las acusaciones de que ilegalmente robó su trabajo sin consentimiento y compensación. Los tribunales que dictaminan contra el uso justo, una doctrina legal que permite la utilización de trabajos con derechos de autor sin una licencia, podría tener importantes implicaciones para el líder de la IA. La semana pasada, cientos de cifras principales de Hollywood firmaron una carta que se apelación contra Operai y Google al gobierno de los Estados Unidos para permitir que sus modelos de IA entrenen en trabajos con derechos de autor.
Asistió a la proyección había un ejecutivo en Universal Pictures, así como en Disney, que llegó a su capacidad personal y no como representante del estudio. Un empleado de UTA en la división de marketing de entretenimiento de la agencia también estaba en la multitud.
Alton Glass, miembro del Gremio de Directores de América que asistió a la proyección, dijo que “los flujos de trabajo cambiarán” con el advenimiento de la IA. Hizo hincapié en: “La oportunidad vendrá de eso”.
La adopción de IA en Hollywood ha sido lenta pero está progresando constantemente. El año pasado, Lionsgate anunció una asociación por primera vez con Runway que hará que la startup de IA con sede en Nueva York entrenara a un nuevo modelo de IA generativo en contenido propiedad del estudio, que se utilizará para ayudar con los procesos de producción detrás de escena. Bajo el acuerdo sin efectivo, Runway tendrá acceso a una parte de los títulos del estudio para crear un modelo diseñado exclusivamente para el uso de Lionsgate, con la esperanza de que pueda conectarse a diferentes partes de la tubería de producción, como el proceso de guión gráfico y para ayudar con el diseño del trabajo VFX, según una persona familiarizada con el acuerdo. Esto fue seguido por Blumhouse asociándose con Meta en una serie de cortometrajes producidos con la ayuda de la película Gen, que crea video y audio correspondiente, ya que prueba las AI Waters y James Cameron uniendo la junta directiva de Stability AI.
“Están buscando estudios de casos”, dice Rob Rosenberg, ex vicepresidente ejecutivo de Showtime Networks y asesor general. “Están buscando una prueba de concepto de que puedan dar la vuelta y decir que reducimos los costos de producción en un X por ciento”.
Sora se puso a disposición para uso público en diciembre después de someterse a pruebas de seguridad por parte de expertos en información errónea, contenido de odio y sesgo. Los cineastas, artistas visuales y diseñadores también recibieron acceso para comentarios sobre mejoras. Desde entonces, los creadores han estado presentando proyectos generados por IA para una recepción mixta, con algunas estéticas criticantes que dicen que se acercan al extraño Valle y otros que acogen la creación casi instantánea de imágenes y efectos listos para películas.
Similar a cómo Operai se está involucrando con los cineastas independientes, ya que despliega Sora, Meeka Bondy, presidente de la práctica de entretenimiento de Perkins Coie y el ex vicepresidente senior de asuntos legales de HBO, dice que las compañías de IA cortejan a Hollywood están buscando mostrar a los creadores que su tecnología no es el Boogeyman que ha sido representado por los críticos. Ella agrega: ‘Destaca su visibilidad, pero también creo que les da legitimidad. Si James Cameron lo está haciendo, sin embargo, es que no están tratando de reemplazar el equipo de producción “.
La narración avanzada por OpenAI para fomentar la adopción de sus herramientas de IA ha girado en torno a la “democratización” de la industria del entretenimiento. Con las herramientas, los creadores enfrentan barreras más bajas para el cine que, algunos pueden decir, ayudarán a realizar sus ideas a la pantalla. A principios de este mes, se anunció que James Lamont y Jon Foster, el equipo de escritura detrás Paddington en Perúestán en cuenta para una película animada de IA Criticz. El título es una adaptación de larga duración del cortometraje del mismo nombre de Vertigo Films, a la que se une AI Creatives en Native Foreign en el proyecto. Esa breve, escrita y dirigida por el especialista creativo de Operai Chad Nelson, surgió como una de las primeras películas de IA en combinar imágenes generadas por la herramienta Dall-E de Openai con técnicas de animación tradicionales y luego se remasterizó con Sora. Los productores dijeron que esperan “establecer un nuevo punto de referencia para la narración generativa que emparejan la creatividad impulsada por los humanos y las técnicas de animación tradicionales con la última tecnología de IA”.
Pero estos puntos de conversación, que subrayan la oportunidad presentada a algunos creativos que han podido avanzar en sus carreras con las herramientas de inteligencia artificial, brillar sobre aquellos que han perdido y continuarán perdiendo trabajo debido a la tecnología. Los artistas conceptuales y los trabajadores en VFX, entre otros puestos que son vistos como incendios por IA, están haciendo un balance de desplazamiento potencial en el futuro si la tecnología avanza al ritmo que ha sido.
Un estudio encargado el año pasado por la Asociación de Arte Conceptual. Y el gremio de animación que encuestó a 300 líderes en toda la industria del entretenimiento descubrió que las tres cuartas partes de los encuestados indicaron que las herramientas de IA respaldaban la eliminación, reducción o consolidación de empleos en sus empresas. Durante los próximos tres años, estimó que casi 204,000 posiciones se verán afectadas negativamente. A la vanguardia del desplazamiento: ingenieros de sonido, actores de voz, artistas conceptuales y empleados en puestos de nivel de entrada, según el estudio. Los efectos visuales y otros trabajos de postproducción son particularmente vulnerables.
Sora tiene limitaciones, tecnológicas y legales, que restringirán sus aplicaciones en la industria del entretenimiento. Aún así, tiene un potencial muy real en la producción en industrias auxiliares, incluidos los anuncios y el trabajo de video encargado por las corporaciones, que presentan menos limitaciones laborales para adoptar la tecnología. Entre las consideraciones sobre el impacto de la tecnología en Hollywood estarán efectos aguas abajo para los creativos que dependen de dicho trabajo para la fuente principal de sus ingresos. Se espera que tenga un impacto similar en los estadios de sonido y las compañías de alquiler de equipos, ya que la tecnología probablemente fomentará menos tripulación de producción.
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
Deepgram: Revolucionando el Reconocimiento de Voz con IA
Perplexity aplicado al Marketing Digital y Estrategias SEO
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo