Connect with us

Noticias

The Future Of Text-To-Video Based Generative AI Magically Appears Via Newly Released OpenAI Sora Turbo

Published

on

In today’s column, I explain the hullabaloo over the advent of text-to-video (T2V) in generative AI apps and large language models (LLM). The upshot is this. There is little doubt that text-to-video is still in its infancy at this time, but, by gosh, keep your eye on the ball because T2V is going to gain significant advances that will ultimately knock the socks off the world. As Dr. Seuss might declare, oh, the things that you can do (hang in there, I’ll cover the possibilities momentarily).

As tangible evidence of what text-to-video can do right now, I’ll include in this discussion an assessment of the newly released OpenAI product Sora Turbo, a cousin of the wildly and widely popular ChatGPT. If you are tempted to try out Sora Turbo, it is initially only being made available to ChatGPT Plus and ChatGPT Pro users, meaning that you must pay-to-play. Sad face.

A notable consideration to keep in mind is that ChatGPT currently garners a reported 300 million weekly active users, and though not all of them are going to have ready access to Sora Turbo, an impressive many millions will. Competing products are likely to find that Sora Turbo becomes the 600-pound gorilla and the elephant in the room. By and large, a massive number of users and a massive amount of media attention is going to shift overnight toward Sora Turbo.

Let’s talk about it.

This analysis of an innovative AI advancement is part of my ongoing Forbes column coverage on the latest in AI including identifying and explaining various impactful AI complexities (see the link here). For my coverage of the top-of-the-line ChatGPT o1 model and its advanced functionality, see the link here and the link here.

Getting Up-To-Speed On AI Modes

I’d like to lay out some foundational aspects so that we can then dive deeply into the text-to-video realm.

Generative AI and LLMs generally began by providing text-to-text (T2T) capabilities. You type in text as a prompt, and the AI responds with text such as an essay, poem, narrative, etc. That’s cool. Another exciting feature consists of text-to-image, whereby you enter a prompt, and the AI generates an image such as a photo-realistic picture, a digital painting, a still cartoon, or other kinds of static imagery. Those two modes of usage are nearly old hat now.

The dream for AI researchers is to allow a person to enter a prompt and then have the AI generate a video. A stripped-down way to do this is to focus solely on the visual video and not include any audio. Gradually, we will see the production of visual video elements that are hand-in-hand accompanied by AI-generated matching audio (some LLMs do this but in quite a limited fashion).

A bonus on top of doing text-to-video is the possibility of taking an image as input and turning that into a video. The image might be by itself as the source content, or the AI might accept both a prompt as text and an accompanying image. Finally, the topmost aim is to allow the use of a separate video as the input source, possibly accompanied by text and images, all of which the generative AI utilizes to produce a suitable video. I refer to that as the all-encompassing full-meal deal.

The Holy Grail Is Suitability Of The Generated T2V

Notice that I just mentioned that the quest or hope is that the generative AI will produce a suitable video. My emphasis on that point is the nature of suitability.

Suitability is the trickiest part of this grand scheme. Allow me to explain. If someone enters a prompt that tells AI to produce a video about a cat wearing a hat that is sitting in a box and riding on a moving train, I’d like you to take a moment and imagine what that video looks like.

Go ahead, envision away, I’ll wait.

I dare say that if you told someone what the video would precisely look like, their conception of the video is going to be quite adrift from what you had in mind. Sure, you would both undoubtedly include a cat of some kind, a hat of some kind on the head of the cat, a box of some kind with the cat inside, and a moving train of some kind. But all of those might vary dramatically from the other person’s conception. Yours could be photo-realistic while the other person imagined animation. The colors would differ, the sizes and shapes would differ, and the action of the cat and the moving train would differ.

I’m sure you get the picture (aha, a pun).

Suitability or the act of meeting the request posed by the human user is a tough nut to crack. Your first impulse might be that if a person writes a lengthy prompt, that would seemingly narrow things down. It might do so to some extent. On the other hand, the odds are still notably high that there would still be marked differences.

Sora Turbo Enters Into The Scene

Earlier this year, OpenAI made available on a limited basis their new product Sora. Sora is a generative AI app that does text-to-video. Though it is referred to as text-to-video, it also does allow for the input of images and the input of video.

As an aside, the ultimate aim of AI makers across the board is to have what is known as X-to-X modes for generative AI, meaning that X can be text, images, audio, video, and anything else we come up with. The angle is that the end game consists of taking any type of medium as input and having the AI produce any desired type of medium as the output.

Boom, drop the mic.

No worries, we’ll get there (or, maybe we should be worried, as I’ll bring up toward the end here).

After Sora had its limited availability tryouts, OpenAI made some important changes and has now released the modified and more advanced version, known as Sora Turbo. Clever naming. You might want to go online and watch some posted videos showcasing the use of Sora Turbo. I say that because it is difficult in a written form such as this discussion to convey the look and feel of the prompts and controls you can use, and likewise allow you to see the generated videos. The official Sora portion of the OpenAI website shows some handy examples, plus there are already tons of user-made videos available on social media.

Components Of High-End Text-To-Video AI Apps

The next aspects that I will cover are the types of features and functionality that we nowadays expect a high-end text-to-video AI app to possess. I bring this up to acquaint you with the ins and outs of AI-based text-to-video capabilities.

In a sense, this is almost as though you are interested in possibly using or buying a car, but you aren’t familiar with the features and functions of automobiles. It can be tough to shop for a car if you are in the dark about what counts.

I will briefly identify some of the keystone elements of text-to-video. In addition, I’ll provide an assigned letter grade for what I perceive of the just-released Sora Turbo capabilities. I want to clarify that my letter grading is based on a first glance. My to-do list consists of spending some dedicated time with Sora Turbo and subsequently doing an in-depth review.

Be on the lookout for that posting.

T2V Suitability Or Faithfulness

I already brought up the fact that suitability is the Holy Grail of text-to-video.

Somehow, once the AI parses the input prompt, a video is to be generated that matches what the user has inside their mind. Whoa, we aren’t yet at mind-reading by AI (well, there are efforts underway to create brain-machine interfaces or BMI, see my discussion at the link here).

The AI industry tends to refer to this suitability factor as faithfulness or honesty. The AI is supposed to do a bang-up job and reach a faithful or honest rendering in video format of what the user wants.

I am going to say that all the readily available T2V is still at a grade level of C, including Sora Turbo. Inch by inch, clever techniques are being devised to hone in on what a user wants. This is mainly being done in AI research labs and we will gradually see those capabilities come into the public sphere.

T2V Visual Vividness, Quality, And Resolution

The video that was generated in the early days of text-to-video was very rudimentary. They were mainly low-resolution. The graphics were jerky while in motion. I’m not knocking on those heroic initial efforts. We ought to appreciate the pioneering work else we wouldn’t be where we are today.

Tip of the hat.

My point is that thankfully, we’ve come a long way, baby. If you get a chance to see the Sora Turbo AI-generated videos, the vividness, quality, and resolution are pretty much state-of-the-art for T2V. I’ll give this an A-/B+.

Yes, I am a tough-as-nails grader.

T2V Temporal Consistency Across Frames

I’m sure that you know that movies consist of individual frames that flow past our eyes so fast that we perceive that there is fluid motion afoot in what we are watching. The conventional text-to-video generation adheres to that same practice. A series of one after one-after-another frames are generated, and when they flow along, you perceive motion.

The rub is this. Suppose that in one frame a cat wearing a hat is at the left side of the view. The next frame is supposed to show the cat moving toward the right side, having moved just a nudge to the right. And so on this goes.

If the AI doesn’t figure out things properly, the next frame might show the cat suddenly at the far right of the view. Oops, you are going to be jostled that the cat somehow miraculously got from the left to the right. It won’t look smooth.

This is generally known as temporal consistency. The AI is to render the contents of the frames so that from one frame to the next, which is based on time as each frame goes past our eyes, there should be appropriate consistency. It is a hard problem, just to let you know. I’ll give Sora Turbo a B and anticipate this will be getting stronger as they continue their advancements.

T2V Object Permanence

You are watching an AI-generated video, and it shows a cat wearing a hat. The cat moves toward the right side of the scene. Suddenly, the hat disappears. It vanished. What the heck? This wasn’t part of the text prompt in the sense that the user didn’t say anything about making the hat vanish.

The AI did this.

Parlance for this is that we expect the AI to abide by object permanence and not mess around with things. An object that is shown in one frame should customarily be shown in the next frame, perhaps moved around or partially behind another object, but it ought to normally still be there somewhere. I’ll score Sora Turbo as a B-/C+.

Again, this is a hard problem and is being avidly pursued by everyone in this realm.

T2V Scene Physics

This next topic consists of something known as scene physics for text-to-video. It is one of the most beguiling of all capabilities and keeps AI researchers and AI developers up at night. They probably have nightmares, vivid ones.

It goes like this. You are watching an AI-generated video, and a character drops a brittle mug. Here on planet Earth, the mug is supposed to obey the laws of gravity. Down it falls. Kablam, the mug hits the floor in the scene and shatters into a zillion pieces.

That is the essence of scene physics. The kinds of intense calculations needed to figure out which way objects should natively go based on ordinary laws of nature is a big hurdle. In addition, the user might have stated that physics is altered, maybe telling the AI to pretend that the action is occurring on the Moon or Mars. I’ll score Sora Turbo as a B-/C+.

T2V Grab-Bag Of Features And Functions

I don’t have the space here to go into the myriad of text-to-video features and functions in modern-day T2V.

To give you a taste of things, here’s a list of many equally important capabilities in T2V products:

  • Stylistic options
  • Remixing re-rendering
  • Video output timing length
  • Time to render
  • Sequencing storyboarding
  • Source choices
  • AI maker preset usage limitations
  • Watermarking of generated video
  • Intellectual Property restrictions
  • Prompt library
  • Prompt storage functionality
  • Video storage functionality
  • Prompt sharing and control
  • Etc.

One thing you ought to especially be aware of is that T2V right now is usually only generating video that consists of a relatively short length of time. When T2V first came around, the videos were a second or two in length. They were nearly a blink of an eye.

Nowadays, many of the mainstay players can do somewhere around 10 to 20 seconds of video. That’s probably just enough to provide a brief scene, but it certainly doesn’t equate to a full-length movie. You can usually use a sequencing or storyboarding function that allows you to place one generated scene after another. That’s good. The downside currently is that the scenes aren’t likely to line up in a suitable alignment. Scene-to-scene continuity is typically weak and telling.

Overall, across the extensive list above, I’ll say that Sora Turbo is somewhere on an A-/B+ and you’ll find plenty of useful controls and functions to keep you busy and entertained.

The Emerging Traumas Of Readily Usable AI Text-To-Video

Shifting gears, I said at the opening of this discussion that text-to-video is quite a big deal. Let’s do a sobering unpacking of that thought.

Envision that with the use of prompts, just about anyone will eventually be able to produce top-quality videos that match Hollywood movies. This sends shivers down the spine of the entertainment industry. AI is coming at all those movie stars, filmmakers, support crews, and the like. Some in the biz insist that AI will never be able to replicate what human filmmakers can achieve.

Well, it’s debatable.

Furthermore, if you construe that the writer of the prompt is a said-to-be “filmmaker” you could argue that the human still is in the loop. One twist is that there are already efforts toward having generative AI come up with prompts that feed into AI-based text-to-video. Blasphemous.

There is something else of more immediate concern since the likelihood of T2V creating full-length top-notch movies is still a bit further on the horizon. The immediate qualm is that people are going to be able to make deepfakes of an incredibly convincing nature. See my coverage of deepfake-making via the AI tools to date, at the link here and the link here, and what’s likely going to happen with the next wave of AI advances.

Utterly convincing deepfakes will be made upon millions and billions of them. At low or nearly zero cost. They are easily distributed digitally across networks, at a low or negligible cost. They will be extremely hard to differentiate from real-life real-world videos.

At an enormous scale.

Disconcertingly, they will look like they are real-life videos. Consider the ramifications. A person is wanted for a heinous crime and a nationwide hunt is underway. The public is asked to submit videos from ring cams, their smartphones, and anything they have that might help in spotting the individual.

It would be very easy to create a video that seemed to show the person walking down the street in a given city, completely fabricated by using AI-based text-to-video. The video is believed. This might cause people in that area to become panicked. Law enforcement resources might be pulled from other locales to concentrate on where the suspect was last presumably seen.

You get the idea.

It Takes A Village To Decide Societal Norms For T2V

In my grab-bag list above of T2V features, I noted that watermarking is a feature that AI makers are including in the generated video, allowing for the potential detection and tracking of deepfakes. It is a cat-and-mouse game where evildoers find ways to defeat the watermarks. Another item listed was the AI maker placing restrictions on what can be included in a generated video, such as not allowing the faces and figures of politicians, celebrities, and so on. Again, there are sneaky ways to try and overcome those restrictions.

If you weren’t thinking about AI ethics and AI laws before now, it is time to put on some serious thinking caps.

To what degree should AI makers have discretion in the controls and limits? Should new AI-related laws be enacted? Will such laws potentially hamper AI advancement and place our country at a disadvantage over others (see my analysis of AI advances as a form of exerting national political power on the world stage, at the link here).

OpenAI acknowledges the disconcerting dilemma and noted this as a significant point in their official webpage about Sora Turbo entitled “Sora Is Here” (posted December 9, 2024): “We’re introducing our video generation technology now to give society time to explore its possibilities and co-develop norms and safeguards that ensure it’s used responsibly as the field advances.”

Yes, we all have a stake in this. Go ahead and get up-to-speed on the latest in text-to-video, and while you are at it, join in spirited and crucial discussions about where this is heading and what we can or ought to do to guide humankind in a suitable direction.

There it is again, the importance of suitability.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

¿Qué es Deepseek? Nuevos rivales de inteligencia artificial chino Chatgpt, OpenAi

Published

on

Línea superior

Una nueva compañía de IA china llamada Deepseek disparó a la cima de las listas de aplicaciones y se sacudió las acciones de Global Tech el lunes después de que obtuvo calificaciones de alto rendimiento a la par con los principales rivales estadounidenses a pesar de que aparentemente carecen del acceso a los chips de vanguardia, impulsados ​​por las afirmaciones de la compañía desarrolladas Sus modelos a una fracción del costo necesario para las plataformas estadounidenses.

Hechos clave

La startup de Deepseek tiene menos de dos años, fue fundada en 2023 por el empresario chino de 40 años Liang Wenfeng, y lanzó sus modelos de código abierto para descargar en los Estados Unidos a principios de enero, donde desde entonces ha aumentado al La parte superior de los gráficos de descarga de iPhone, superando la aplicación para el chatgpt de Openai.

El último producto de Deepseek, un modelo de razonamiento avanzado llamado R1, se ha comparado favorablemente con los mejores productos de Operai y Meta, al tiempo que parece ser más eficiente, con costos más bajos para entrenar y desarrollar modelos y posiblemente haberse hecho sin depender de la IA más poderosa. Aceleradores que son más difíciles de comprar en China debido a los controles de exportación de los Estados Unidos.

Los modelos R1 y V3 de la compañía se clasifican en el Top 10 en el chatbot Arena, una plataforma de rendimiento organizada por la Universidad de California, Berkeley, y la compañía dice que está obteniendo casi tan bien o superando modelos rivales en tareas matemáticas, conocimiento general y cuestión de preguntas y preguntas -y-y-respuesta de referencia de rendimiento.

Deepseek dijo que la capacitación de uno de sus últimos modelos costó $ 5.6 millones, lo que sería mucho menos que el director ejecutivo de $ 100 millones a $ 1 mil millones de una IA estimó que cuesta construir un modelo el año pasado, aunque el analista de Bernstein, Stacy Rasgon, luego llamó a las cifras de Deepseek muy engañosas.

A pesar de las preguntas que quedan sobre el verdadero costo y el proceso para construir los productos de Deepseek, todavía enviaron el mercado de valores a un pánico: Microsoft (menos de 3.7%a las 11:30 a.m. ET), Tesla (1.3%), Nvidia (15%) y Broadcom (16%) se resbaló el lunes después de una venta de una venta de una venta de SE VOLVER por el éxito de Deepseek, y el NASDAQ pesado por la tecnología disminuyó un 3,5% en el camino a su tercer día de los últimos dos años.

Obtenga alertas de mensajes de texto de Breaking News: Estamos lanzando alertas de mensajes de texto para que siempre sepa las historias más grandes que dan forma a los titulares del día. Envíe “alertas” de texto a (201) 335-0739 o registrarse aquí.

Cita crucial

“Deepseek R1 es el momento Sputnik de AI”, dijo el domingo el inversor multimillonario Marc Andressen.

Gran número

1.6 millones. Esa es cuántas veces se había descargado la aplicación Mobile Deepseek hasta el sábado, informó Bloomberg, la aplicación No. 1 en las tiendas de iPhone en Australia, Canadá, China, Singapur, Estados Unidos y el Reino Unido

¿Cómo uso Deepseek?

Deepseek es gratuito en Web, APP y API, pero requiere que los usuarios creen una cuenta.

¿Cómo se compara Deepseek con OpenAi y Chatgpt?

Deepseek-R1 es más similar al modelo O1 de OpenAI, que cuesta a los usuarios $ 200 por mes. Ambos son modelos de idiomas grandes con capacidades de razonamiento avanzado, diferentes de los chatbots de preguntas y respuestas de forma corta como el chatgtp de Openai. R1 y O1 se especializan en desglosar las solicitudes en una cadena de “pensamientos” lógicos y examinar cada uno individualmente. R1 ha logrado el rendimiento a la par con O1 en varios puntos de referencia y, según los informes, superó su rendimiento en la prueba Math-500. Chatbot Arena actualmente clasifica a R1 como empatado en el tercer mejor modelo de IA que existe, con O1 en cuarto lugar.

¿Es el código abierto Deepseek-R1?

Sí. Deepseek-R1 está disponible para que cualquiera pueda acceder, usar, estudiar, modificar y compartir, y no está restringido por licencias propietarias.

¿Quién posee Deepseek?

Deepseek opera de forma independiente, pero es financiado únicamente por High-Flyer, un fondo de cobertura de $ 8 mil millones también fundado por Wenfeng. La compañía lanzó su primer producto en noviembre de 2023, un modelo diseñado para la codificación de tareas, y sus lanzamientos posteriores, todos notables por sus bajos costos, obligaron a otros gigantes tecnológicos chinos a reducir sus precios del modelo de IA para seguir siendo competitivos. En una entrevista el año pasado, Wenfeng dijo que la compañía no tiene como objetivo obtener ganancias excesivas y precios de sus productos solo un poco por encima de sus costos.

¿Deepseek es realmente tan barato?

No todos están comprando las afirmaciones de que Deepseek hizo R1 con un presupuesto reducido y sin la ayuda de chips de IA de fabricación estadounidense. El CEO de Scale AI, Alexandr Wang, dijo a CNBC el jueves (sin evidencia) Deepseek construyó su producto utilizando aproximadamente 50,000 chips Nvidia H100 que no puede mencionar porque violaría los controles de exportación estadounidenses que prohíben la venta de tales chips a las empresas chinas. El multimillonario Elon Musk apoyó la teoría y dijo que era “obviamente” cierto en una publicación sobre X. Rasgon expresó pensamientos similares en una nota el lunes, escribiendo que Deepseek no cuantificaba los recursos que utilizaba para desarrollar el modelo R1 en sus informes y que “Las modelos se ven fantásticas … no creemos que sean milagros”. También dijo que la estimación de costos de $ 5 millones puede representar con precisión lo que Deepseek pagó para alquilar cierta infraestructura para capacitar a sus modelos, pero excluye la investigación anterior, experimentos, algoritmos, datos y costos asociados con la construcción de sus productos.

Que ver

Qué gran éxito Nvidia, el fabricante de chips de inteligencia artificial muy buscado, lleva el lunes. La compañía está rastreando hacia una pérdida del 11%, o $ 400 mil millones, que sería la mayor pérdida de valor de un solo día para cualquier empresa. Ese registro ya está en manos de Nvidia, que cayó casi un 10% en septiembre para perder $ 280 mil millones en valor de mercado.

Fondo clave

China y los Estados Unidos son los principales jugadores en la carrera armamentista de inteligencia artificial que parecía ser dirigida principalmente por las empresas estadounidenses OpenAi (respaldadas por Microsoft), Meta y Alphabet. La semana pasada, el presidente Donald Trump respaldó el plan de infraestructura Stargate de $ 500 mil millones de OpenAI para superar a sus compañeros y, al anunciar su apoyo, habló específicamente sobre la importancia del dominio estadounidense sobre China en el espacio de la IA. La inteligencia artificial está impulsada en gran medida por chips semiconductores de alta tecnología y de alto dólar que proporcionan la potencia de procesamiento necesaria para realizar cálculos complejos y manejar grandes cantidades de datos de manera eficiente. Y aunque no todos los fabricantes de chips semiconductores más grandes son estadounidenses, muchos, incluidos Nvidia, Intel y Broadcom, están diseñados en los Estados Unidos. En 2022, Estados Unidos comenzó a limitar las exportaciones de semiconductores a China en un intento de obstaculizar la capacidad del país para avanzar en la IA por solicitudes militares u otras amenazas de seguridad nacional.

Lectura adicional

ForbesNvidia stock hunde 15%, la mayor pérdida de la historia, como la alarma de los aguas profundas se sacude, cariñoForbesPanic de Deepseek: aquí está por qué las existencias tecnológicas se están aplastando a medida que Nasdaq cambia el peor día de 2025ForbesDeepseek Rattles Tech Stocks: la startup china contra los desafíos de OpenAI US AI LeadForbesEl rival chino de chatgpt Deepseek está haciendo olas en Silicon Valley a pesar de los bordillos de EE. UU.

Continue Reading

Noticias

Esto es lo que debes saber

Published

on

El lunes, la startup china de inteligencia artificial DeepSeek tomó el codiciado lugar de su rival OpenAI como la aplicación gratuita más descargada en los EE. UU. Manzana‘s App Store, destronando a ChatGPT para el asistente de inteligencia artificial de DeepSeek. Las acciones tecnológicas mundiales se vendieron y estaban en camino de eliminar miles de millones en capitalización de mercado.

Líderes tecnológicos, analistas, inversores y desarrolladores dicen que la exageración (y el consiguiente temor de quedarse atrás en el siempre cambiante ciclo exagerado de la IA) puede estar justificada. Especialmente en la era de la carrera armamentista generativa de la IA, donde tanto los gigantes tecnológicos como las nuevas empresas compiten para asegurarse de no quedarse atrás en un mercado que se prevé superará el billón de dólares en ingresos dentro de una década.

¿Qué es DeepSeek?

DeepSeek fue fundada en 2023 por Liang Wenfeng, cofundador de High-Flyer, un fondo de cobertura cuantitativo centrado en la IA. Según se informa, la startup de IA surgió de la unidad de investigación de IA del fondo de cobertura en abril de 2023 para centrarse en grandes modelos de lenguaje y alcanzar la inteligencia artificial general, o AGI, una rama de la IA que iguala o supera al intelecto humano en una amplia gama de tareas, que OpenAI y sus rivales dicen que lo están persiguiendo rápidamente. DeepSeek sigue siendo propiedad total de High-Flyer y financiado por ella, según analistas de Jefferies.

Los rumores en torno a DeepSeek comenzaron a cobrar fuerza a principios de este mes, cuando la startup lanzó R1, su modelo de razonamiento que rivaliza con el o1 de OpenAI. Es de código abierto, lo que significa que cualquier desarrollador de IA puede usarlo, y se ha disparado a la cima de las tiendas de aplicaciones y tablas de clasificación de la industria, y los usuarios elogian su rendimiento y capacidades de razonamiento.

Al igual que otros chatbots chinos, tiene sus limitaciones cuando se le pregunta sobre ciertos temas: cuando se le pregunta sobre algunas de las políticas del líder chino Xi Jinping, por ejemplo, DeepSeek supuestamente aleja al usuario de líneas de preguntas similares.

Otra parte clave de la discusión: el R1 de DeepSeek se construyó a pesar de que Estados Unidos limitó las exportaciones de chips a China tres veces en tres años. Las estimaciones difieren sobre cuánto cuesta exactamente el R1 de DeepSeek o cuántas GPU se incluyen en él. Los analistas de Jefferies estimaron que una versión reciente tenía un “coste de capacitación de sólo 5,6 millones de dólares (suponiendo un costo de alquiler de 2 dólares por hora y 800 horas). Eso es menos del 10% del costo de Meta‘s Llama.” Pero independientemente de las cifras específicas, los informes coinciden en que el modelo fue desarrollado a una fracción del costo de los modelos rivales por OpenAI, Anthropic, Google y otros.

Como resultado, el sector de la IA está inundado de preguntas, entre ellas si el creciente número de rondas de financiación astronómicas y valoraciones de miles de millones de dólares de la industria es necesaria, y si una burbuja está a punto de estallar.

Lea más informes de CNBC sobre IA

Acciones de NVIDIA cayó un 11%, con el fabricante de chips ASML bajó más del 6%. El Nasdaq cayó más del 2% y cuatro gigantes tecnológicos… Meta, microsoft, Manzana y ASML están listos para informar sus ganancias esta semana.

Los analistas de Raymond James detallaron algunas de las preguntas que afectan a la industria de la IA este mes y escribieron: “¿Cuáles son las implicaciones para la inversión? ¿Qué dice sobre los modelos de código abierto versus los propietarios? ¿Invertir dinero en GPU es realmente una panacea? ¿Existen restricciones a las exportaciones de Estados Unidos? ¿Cuáles son las implicaciones más amplias de [DeepSeek]? Bueno, podrían ser espantosos o no ser un evento, pero tengan la seguridad de que la industria está llena de incredulidad y especulación”.

Los analistas de Bernstein escribieron en una nota el lunes que “según las muchas (ocasionalmente histéricas) tomas calientes que vimos [over the weekend,] las implicaciones van desde ‘Eso es realmente interesante’ hasta ‘Esta es la sentencia de muerte del complejo de infraestructura de IA tal como lo conocemos'”.

Cómo están respondiendo las empresas estadounidenses

Algunos directores ejecutivos de tecnología estadounidenses están luchando por responder antes de que los clientes cambien a ofertas potencialmente más baratas de DeepSeek, y se informa que Meta está iniciando cuatro “salas de guerra” relacionadas con DeepSeek dentro de su departamento de IA generativa.

microsoft El director ejecutivo Satya Nadella escribió en X que el fenómeno DeepSeek era solo un ejemplo de la paradoja de Jevons: “A medida que la IA se vuelva más eficiente y accesible, veremos cómo su uso se dispara, convirtiéndola en un bien del que simplemente no podemos tener suficiente”. “. El director ejecutivo de OpenAI, Sam Altman, tuiteó una cita que atribuyó a Napoleón y escribió: “Una revolución no se puede hacer ni detener. Lo único que se puede hacer es que uno de sus hijos le dé una dirección a fuerza de victorias”.

Yann LeCun, científico jefe de IA de Meta, escribió en LinkedIn que el éxito de DeepSeek es indicativo del cambio de rumbo en el sector de la IA para favorecer la tecnología de código abierto.

LeCun escribió que DeepSeek se ha beneficiado de parte de la tecnología propia de Meta, es decir, sus modelos Llama, y ​​que la startup “ideó nuevas ideas y las construyó sobre el trabajo de otras personas. Debido a que su trabajo está publicado y es de código abierto, todos pueden sacar provecho de ello. Ese es el poder de la investigación abierta y del código abierto”.

Alexandr Wang, director ejecutivo de Scale AI, dijo a CNBC la semana pasada que el último modelo de IA de DeepSeek fue “revolucionario” y que su versión R1 es aún más poderosa.

“Lo que hemos descubierto es que DeepSeek… tiene el mejor rendimiento, o aproximadamente está a la par de los mejores modelos estadounidenses”, dijo Wang, añadiendo que la carrera de IA entre EE.UU. y China es una “guerra de IA”. La empresa de Wang proporciona datos de entrenamiento a actores clave de la IA, incluidos OpenAI, Google y Meta.

A principios de esta semana, el presidente Donald Trump anunció una empresa conjunta con OpenAI, Oracle y SoftBank para invertir miles de millones de dólares en infraestructura de IA en Estados Unidos. El proyecto, Stargate, fue presentado en la Casa Blanca por Trump, el director ejecutivo de SoftBank, Masayoshi Son, el cofundador de Oracle, Larry Ellison, y el director ejecutivo de OpenAI, Sam Altman. Los socios tecnológicos iniciales clave incluirán a Microsoft, Nvidia y Oracle, así como a la empresa de semiconductores Arm. Dijeron que invertirían 100.000 millones de dólares para empezar y hasta 500.000 millones de dólares en los próximos cuatro años.

IA evolucionando

La noticia de la destreza de DeepSeek también llega en medio del creciente revuelo en torno a los agentes de IA (modelos que van más allá de los chatbots para completar tareas complejas de varios pasos para un usuario) que tanto los gigantes tecnológicos como las nuevas empresas están persiguiendo. Meta, Google, Amazon, Microsoft, OpenAI y Anthropic han expresado su objetivo de crear IA agente.

Anthropic, la startup de IA respaldada por Amazon y fundada por ex ejecutivos de investigación de OpenAI, intensificó su desarrollo tecnológico durante el año pasado y, en octubre, la startup dijo que sus agentes de IA podían usar computadoras como humanos para completar tareas complejas. La capacidad de uso de computadoras de Anthropic permite que su tecnología interprete lo que hay en la pantalla de una computadora, seleccione botones, ingrese texto, navegue por sitios web y ejecute tareas a través de cualquier software y navegación por Internet en tiempo real, dijo la startup.

La herramienta puede “usar computadoras básicamente de la misma manera que nosotros”, dijo a CNBC Jared Kaplan, director científico de Anthropic, en una entrevista en ese momento. Dijo que puede realizar tareas con “decenas o incluso cientos de pasos”.

OpenAI lanzó una herramienta similar la semana pasada, introduciendo una función llamada Operador que automatizará tareas como planificar vacaciones, completar formularios, hacer reservas en restaurantes y pedir alimentos.

El microsoft-La startup respaldada lo describe como “un agente que puede ir a la web para realizar tareas por usted” y agregó que está capacitado para interactuar con “los botones, menús y campos de texto que la gente usa a diario” en la web. También puede hacer preguntas de seguimiento para personalizar aún más las tareas que realiza, como información de inicio de sesión para otros sitios web. Los usuarios pueden tomar el control de la pantalla en cualquier momento.

Continue Reading

Noticias

Esto es lo que debes saber: NBC 6 South Florida

Published

on

  • El zumbido alrededor de la startup de IA China Deepseek comenzó a recoger a Steam a principios de este mes, cuando la startup lanzó R1, su modelo de razonamiento que rivaliza con el O1 de Openai.
  • El lunes, Deepseek se hizo cargo del lugar codiciado de su rival Openai para la aplicación gratuita más descargada en los EE. UU. En la App Store de Apple, destronando a Chatgpt para el asistente de IA de Deepseek.
  • Global Tech Stocks se vendió, con el gigante de chip de IA Nvidia cayendo un 10%.

El lunes, la startup de inteligencia artificial china Deepseek se hizo cargo del lugar codiciado de su rival Openai como la aplicación gratuita más desactivada en los EE. UU. En la tienda de aplicaciones de Apple, destronando Chatgpt para el asistente de IA de Deepseek. Las acciones de Global Tech se vendieron y estaban en camino de acabar con miles de millones en el límite de mercado.

Los líderes tecnológicos, analistas, inversores y desarrolladores dicen que el bombo, y el consiguiente temor de quedarse atrás en el ciclo de bombo de IA en constante cambio, pueden estar justificados. Especialmente en la era de la carrera armamentista generativa de IA, donde los gigantes tecnológicos y las startups están corriendo para garantizar que no se queden atrás en un mercado previsto para superar los ingresos de $ 1 billón en una década.

¿Qué es Deepseek?

Deepseek fue fundada en 2023 por Liang Wenfeng, cofundador de High-Flyer, un fondo cuantitativo de cobertura centrado en la IA. Según los informes, la startup de IA surgió de la Unidad de Investigación de AI del fondo de cobertura en abril de 2023 para centrarse en modelos de idiomas grandes y alcanzar la inteligencia general artificial, o AGI, una rama de IA que iguala o supere el intelecto humano en una amplia gama de tareas, que se abren. Y sus rivales dicen que están persiguiendo rápidamente. Deepseek sigue siendo propiedad y financiado por High-Flyer, según analistas de Jefferies.

El zumbido alrededor de Deepseek comenzó a recoger a Steam a principios de este mes, cuando la startup lanzó R1, su modelo de razonamiento que rivaliza con el O1 de OpenAI. Es de código abierto, lo que significa que cualquier desarrollador de IA puede usarlo, y se ha disparado a la cima de las tiendas de aplicaciones y las tablas de clasificación de la industria, con los usuarios elogios de su rendimiento y capacidades de razonamiento.

Al igual que otros chatbots chinos, tiene sus limitaciones cuando se les pregunta sobre ciertos temas: cuando se le pregunta sobre algunas de las políticas del líder chino Xi Jinping, por ejemplo, Deepseek aleja al usuario de líneas similares de preguntas.

Otra parte clave de la discusión: R1 de Deepseek se construyó a pesar de las exportaciones de chips de EE. UU. A China tres veces en tres años. Las estimaciones difieren exactamente en la cantidad de R1 de Deepseek, o en cuántas GPU entró. Los analistas de Jefferies estimaron que una versión reciente tenía un “costo de capacitación de solo US $ 5,6 millones (suponiendo un costo de alquiler de US $ 2/h800 horas). Eso es menos del 10% del costo de la LLAMA de Meta”. Pero independientemente de los números específicos, los informes acuerdan que el modelo se desarrolló a una fracción del costo de los modelos rivales por OpenAI, Anthrope, Google y otros.

Como resultado, el sector de la IA está inundado de preguntas, incluido si es necesario el creciente número de rondas de financiación astronómica y las valoraciones de mil millones de dólares, y si una burbuja está a punto de estallar.

Las acciones de NVIDIA cayeron un 11%, con el fabricante de chips ASML más del 6%. El NASDAQ cayó por 2%, y cuatro gigantes tecnológicos: Meta, Microsoft, Apple y ASML están listos para informar las ganancias esta semana.

Los analistas de Raymond James detallaron algunas de las preguntas que afectan a la industria de la IA este mes, escribiendo: “¿Cuáles son las implicaciones de inversión? ¿Qué dice sobre los modelos de origen abierto versus patentado? ¿Está arrojando dinero a las GPU realmente una panacea? trabajando? ¿Cuáles son las implicaciones más amplias de [DeepSeek]? Bueno, podrían ser terribles o un no evento, pero tengan la seguridad de que la industria está llena de incredulidad y especulación “.

Los analistas de Bernstein escribieron en una nota el lunes que “según las muchas tomas (ocasionalmente histéricas) que vimos que vimos [over the weekend,] El rango de implicaciones en cualquier lugar desde ‘eso es realmente interesante’ hasta ‘Esta es la luz de muerte del complejo de infraestructura de IA tal como lo conocemos’ “.

Cómo están respondiendo las empresas estadounidenses

Algunos CEO de tecnología estadounidense están trepando por responder antes de que los clientes cambien a ofertas potencialmente más baratas de Deepseek, y Según los informes, Meta inicia cuatro “salas de guerra” relacionadas con Deepseek dentro de su departamento generativo de IA.

El CEO de Microsoft, Satya Nadella, escribió en X que el fenómeno de Deepseek era solo un ejemplo de la paradoja de Jevons, escribiendo, “A medida que AI se vuelve más eficiente y accesible, veremos su uso Skyroocket, convirtiéndolo en una mercancía, simplemente no podemos obtener suficiente de.” El CEO de Operai, Sam Altman, tuiteó una cita que atribuyó a Napoleón, escribiendo: “Una revolución no se puede hacer ni detener.

Yann Lecun, el jefe científico de AI de Meta, escribió en LinkedIn que el éxito de Deepseek es indicativo de cambiar las mareas en el sector de IA para favorecer la tecnología de código abierto.

Lecun escribió que Deepseek se ha beneficiado de algunas de la propia tecnología de Meta, es decir, sus modelos de llama, y ​​que la startup “se les ocurrió nuevas ideas y las construyó en la parte superior del trabajo de otras personas. Debido a que su trabajo es publicado y de código abierto, todos pueden Se beneficia de él.

Alexandr Wang, CEO de Scale AI, le dijo a CNBC la semana pasada que el último modelo de IA de Deepseek fue “devastador de la tierra” y que su lanzamiento de R1 es aún más poderoso.

“Lo que hemos encontrado es que Deepseek … es el mejor desempeño, o aproximadamente a la par con los mejores modelos estadounidenses”, dijo Wang, y agregó que la carrera de IA entre los Estados Unidos y China es una “guerra de IA”. La compañía de Wang proporciona datos de capacitación a jugadores clave de IA, incluidos OpenAI, Google y Meta.

A principios de esta semana, presidente Donald Trump anunció una empresa conjunta con OpenAI, Oracle y Softbank para invertir miles de millones de dólares en infraestructura de IA de EE. UU. El proyecto, Stargate, fue presentado en la Casa Blanca por Trump, el CEO de SoftBank, Masayoshi,, cofundador Larry Ellison, y el CEO de Operai, Sam Altman. Los socios de tecnología iniciales clave incluirán Microsoft, Nvidia y Oracle, así como el brazo de la compañía de semiconductores. Dijeron que invertirían $ 100 mil millones para comenzar y hasta $ 500 mil millones en los próximos cuatro años.

AI evolucionando

La noticia de la destreza de Deepseek también se produce en medio de la creciente exageración en torno a los agentes de IA, modelos que van más allá de los chatbots para completar tareas complejas de varios pasos para un usuario, que los gigantes tecnológicos y las startups están persiguiendo. Meta, Google, Amazon, Microsoft, Openai y Anthrope han expresado su objetivo de construir IA de agente.

Anthrope, la startup de IA respaldada por Amazon fundada por ex ejecutivos de investigación de Openai, aumentó su desarrollo de tecnología durante el año pasado, y en octubre, la startup dijo que sus agentes de IA pudieron usar computadoras como humanos para completar tareas complejas. La capacidad de uso de la computadora de Anthrope permite que su tecnología interprete lo que está en la pantalla de una computadora, seleccione botones, ingrese texto, navegue por los sitios web y ejecute tareas a través de cualquier software y navegación en Internet en tiempo real, dijo la startup.

La herramienta puede “usar computadoras básicamente de la misma manera que lo hacemos”, dijo Jared Kaplan, director científico de Anthrope, a CNBC en una entrevista en ese momento. Dijo que puede hacer tareas con “decenas o incluso cientos de pasos”.

Openai lanzó una herramienta similar la semana pasada, presentando una característica llamada operador que automatizará tareas como planificar vacaciones, completar formularios, hacer reservas de restaurantes y ordenar comestibles.

La startup respaldada por Microsoft lo describe como “un agente que puede ir a la web para realizar tareas para usted”, y agregó que está capacitado para interactuar con “los botones, los menús y los campos de texto que las personas usan a diario” en la web . También puede hacer preguntas de seguimiento para personalizar aún más las tareas que completa, como la información de inicio de sesión para otros sitios web. Los usuarios pueden tomar el control de la pantalla en cualquier momento.

Continue Reading

Trending