Connect with us

Noticias

Let’s Start Thinking Of Breathtaking Ways To Leverage Generative AI Far Beyond What We Are Doing Right Now

Published

on

In today’s column, I explore the rising vocal clamor that we are woefully underutilizing generative AI and large language models or LLMs.

This might come as quite a surprise since the use of generative AI seems to be just about everywhere and continues to rapidly expand. There are reportedly 250 million weekly active users of OpenAI ChatGPT and undoubtedly hundreds of millions or into the billions more users of AI when including the likes of Anthropic Claude, Google Gemini, Meta Llama, and other major generative AI apps.

But the rub is this.

It’s not how many people are using generative AI, it’s the way in which generative AI has been set up to be used.

The primary approach that nearly everyone uses is that generative AI takes in essay-like text and produces text-based responses, or possibly images and video. That is the norm. Generative AI and large language models are data trained on patterns in human language and the way that humans write.

Maybe we should be identifying something else to pattern on. Perhaps we can reach far beyond just everyday natural language. The sky is the limit, or shall we say limitless.

Does that catch your attention and offer some intrigue?

Let’s talk about it.

This analysis of an innovative proposition is part of my ongoing Forbes.com column coverage on the latest in AI including identifying and explaining various impactful AI complexities (see the link here).

The Push To Go Outside The Box

A modern-day luminary in the AI field named Andrej Karpathy began quite an online conversation and debate when he posted a tweet on X that said this (posting on September 14, 2024, per @karpathy):

  • “It’s a bit sad and confusing that LLMs (‘Large Language Models’) have little to do with language; It’s just historical. They are highly general-purpose technology for statistical modeling of token streams. A better name would be Autoregressive Transformers or something. They don’t care if the tokens happen to represent little text chunks. It could just as well be little image patches, audio chunks, action choices, molecules, or whatever. If you can reduce your problem to that of modeling token streams (for any arbitrary vocabulary of some set of discrete tokens), you can ‘throw an LLM at it’.
  • “Actually, as the LLM stack becomes more and more mature, we may see a convergence of a large number of problems into this modeling paradigm. That is, the problem is fixed at that of ‘next token prediction’ with an LLM, it’s just the usage/meaning of the tokens that changes per domain. If that is the case, it’s also possible that deep learning frameworks (e.g. PyTorch and friends) are way too general for what most problems want to look like over time. What’s up with thousands of ops and layers that you can reconfigure arbitrarily if 80% of problems just want to use an LLM? I don’t think this is true, but I think it’s half true.”

I’d like to walk you through the underlying proposition.

You might want to grab a glass of fine wine and find a quiet spot to sit and mull over the significance of what this is all about.

Tokens And Pattern Matching Are The Key

Currently, when you enter a prompt into generative AI, the words that you input are converted into a numeric format referred to as tokens. For example, suppose the sentence was “The dog barked” and that we had beforehand assigned the number 23 to the word “The”, 51 to the word “dog” and 18 to “barked”. The tokenized version of the sentence “The dog barked” would be those numbers shown in the sequence of 23, 51, and 18.

Next, after that conversion from text to numbers, the numbers or tokens are then used within the generative AI to figure out what the output will be. A long series of computations are undertaken. At the tail end of the processing, and before you see any text output, the resultant numbers might consist of say 10, 48, 6, which let’s assume that 10 is for the word “Yes”, 48 is for the word “it” and 6 is for the word “did”. Thus, the output as a result of making use of the inputs 23, 51, and 18, gives us the numbers 10, 48, and 6, which is shown to you as “Yes it did”.

For a more detailed explanation of tokenization, see my discussion at the link here.

By and large, the premise of generative AI and large language models is that when someone enters a set of sequenced tokens (via text-based words), a response can be computed that will consist of some other set of sequenced tokens (which is then converted into text-based words). In my example, I entered the three sequenced words consisting of “The dog barked” and I got a response of three sequenced words saying, “Yes it did”. My sequence of words “The dog barked” was converted into numeric tokens, run through a gauntlet of mathematical and computational processes, and the result produced was numeric tokens that after conversion into text-based words was “Yes it did.”

How does the AI calculate the words or tokens that form the response?

The general principle is that by doing extensive data training on how humans write, it is feasible to figure out how to take in tokens and generate or produce tokens that fit to the patterns of human writing. Usually, this data training is undertaken by scanning vast amounts of text found on the Internet, including essays, stories, narratives, poems, and so on. It turns out that humans make use of patterns in how they write, and the pattern-matching can pretty much pick up on those patterns.

That’s why generative AI seems fluent. It is computationally mimicking human writing. This requires a lot of examples of human writing to identify those patterns. I’ve discussed that some worry we won’t be able to make dramatic advances in generative AI because there might not be enough available human writing to pattern on, see my analysis at the link here.

Lean Into Pattern Matching As The Crux

It is time to think outside the box.

Are you ready?

Set aside the natural language aspects. Put that at the edge of your thinking. Don’t let it cloud your judgment.

What we really have going on is a kind of statistical predictor that can take in a set of tokens and produce as output a set of other tokens. Within the computational pattern matching is a type of mapping from what happens when some sequence of tokens is encountered and what ought to be predicted as the next tokens to come out.

The existing perspective is that this is useful for natural languages such as English, German, French, etc. Indeed, generative AI is customarily based on and referred to as large language models or LLMs. Why? Because the computational pattern matching is focused on natural languages, forming a model of what our everyday languages entail. After several initial years of trying this, AI researchers realized that you need lots of data to do proficient pattern matching and modeling. In the early days of generative AI, the models weren’t very good, partially due to a lack of scaling up.

At a macroscopic level, assume we need three crucial elements for our predictor mechanism:

  • (1) Something that we can convert into tokens.
  • (2) There is some pattern associated with inputs to outputs.
  • (3) We have enough of the material to sufficiently pattern on.

If any of those assumed elements are unavailable or don’t exist, we are somewhat up a creek without a paddle. Allow me to elaborate on each of the three and why they are respectively vital.

It could be that we cannot convert into tokens whatever it is that we want to use. That’s a problem. We won’t be able to use our prediction models that are based on tokens (as an aside, we could potentially devise models that use something other than tokens).

Another sour possibility is that there aren’t any patterns to be found within the arrangement of the tokens. If there aren’t any patterns, the model can’t make useful predictions. It could be that the patterns are so hard to find that our existing pattern-identifying techniques won’t crack open the secret sauce. It could also be that there just aren’t any patterns at all, period, end of story.

Finally, the likelihood of finding patterns and reliably making predictions is often based on having lots and lots of whatever it is that we are trying to pattern on. If all you have is a drop in the bucket, the odds are it won’t be enough to garner a big picture. Things will be askew.

Throwing The Amazing Predictor At Whatever Works

Okay, now that we have those three elements in mind, we need to start finding new avenues worth venturing into.

I want you to take a moment and put your mind to hard work:

  • The Big Question — What else is there other than natural language that provides a source of something that can be converted into tokens, contains patterns, and that we have sufficient volume of the thing that we can reasonably pattern match on it?

And, of course, of which we would want an AI system to be able to process for us.

There must be a buck to be made or some justifiable reason why we would go to the trouble to toss AI at it. I suppose you might do it for kicks but given the cost of churning out this type of AI, there should be a pot of gold at the end of the rainbow, one way or another.

Thinking, thinking, thinking.

Keep your thinking cap on and your mind activated.

You already know that we can do this with natural languages in terms of taking as input text and producing as output some associated text. The same can be said about audio. Generative AI is being used already to take as input audio, convert it into tokens, identify patterns based on available large volumes of audio, and produce audio outputs. Likewise, video is yet another mode, though the video is a lot harder to deal with than text or audio. See my coverage of multi-modal generative AI at the link here.

I’m sure that you know that coding or programming is already under the microscope for generative AI and LLMs. This is an interesting angle because though coding is text-based, it is not quite a natural language per se. You could argue that coding is an artificial language and not a conventional natural language. The beauty though is that it can be converted into tokens, patterns can be identified, and there is a lot of code out there to data train for pattern matching purposes.

Sorry that I keep telling you about possibilities that are already known or taken. That is though good to know about so that you aren’t trying to reinvent the wheel.

Ideas Being Early Days Floated

I will share with you some additional possibilities that are generally underway but still in the early stages of exploration:

  • Game playing. You can use the same precepts to get AI to play games. Moves are actions that can be described and converted into tokens. Patterns can be identified. By collecting lots of games being played, data is plentiful.
  • Stock market predictions. Consider stock prices as potential tokens. If you want to include other factors, such as the status of the economy, those can be similarly tokenized. Patterns can be presumably found and lots of data is available.
  • Molecular structure predictions. Take the shapes or structures of molecules and convert them into tokens. There are patterns to be found. Lots of data is available.
  • Route optimizations. Routing of traffic is essential and currently tends to be solved via symbolic or traditional mathematical means. The traffic parameters could be tokenized, patterns figured out, and lots of such data would be available for this.

Those are paths that are seriously being pursued. You are encouraged to jump in and help out. They are still cooking those meals, and the results are not yet finalized. There is ample room to make progress.

Okay, your homework is this.

Think about fields of one kind or another that may have not yet been explored for applying a generative AI or LLM-like capability. If you happen to be a domain expert in that field, you have a leg-up on this. I say that because you hopefully already know whether there are patterns afoot, you know why using AI for predictions would be valuable in that arena, and you possibly know if or where data can be found.

An added twist is this.

If there aren’t known patterns, you might be onto something especially enriching. Here’s the deal. If no one has yet found patterns, it could be that they just haven’t looked the right way. Prior efforts to find patterns might not have had the kind of computational power and pattern matching that we have with contemporary generative AI and LLMs.

The domain might be a sleeper. It is waiting for the right person to have the right vision. The heretofore unknown patterns could be unlocked via the right use of generative AI and LLMs or similar technology. I assure you that if that were the case, you might be in line for big bucks, big fame, and maybe even one of those vaunted Nobel prizes.

Isn’t that worth taking some dedicated time and attention to think about?

Yes, I would certainly say so, and I wish you the best of luck and urge you to get cracking. You can do it.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La mejor característica de Gemini va gratuita para todos, y todas las características van gratis para algunas en las noticias de esta semana

Published

on

La semana en Mobile tuvo algunas sorpresas, pero ninguna más grande que Google prácticamente regaló a Gemini avanzado en múltiples frentes. Los estudiantes universitarios pueden obtener todo el shebang sin renunciar a un centavo, y todos los demás ahora tienen acceso a su mejor característica, una que en realidad es un poco alucinante.

En otra parte, Samsung hizo los dos pasos con un UI 7, deteniendo su despliegue después de una larga espera y luego reanudando después de un breve retraso. Mientras tanto, el Asistente de Google murió otra muerte, y hay un problema peculiar con la aplicación de papel tapiz de Pixel. Te atraparemos en los mejores titulares de Android de la semana a continuación.

Roundup de la semana pasada

Google actualizó un número de registro de dispositivos Pixel la semana pasada

La semana en el móvil fue pesada en actualizaciones y nuevos dispositivos.

La mejor característica de Gemini va gratis para todos (y todas las características van gratis para algunos)

El miércoles, las personas en el nivel gratuito de Google Gemini comenzaron a notar que la nueva cámara de Gemini Live y las características de intercambio de pantalla estaban disponibles, a pesar de haber llegado a la mayoría de los usuarios avanzados de Gemini solo dos semanas antes. Si aún no lo ha visto, la característica es alucinante límite, incluso si no es perfectamente fluida. En resumen, puedes hablar con la IA sobre lo que te rodea en tiempo real, básicamente proyectar Astra Encarnate.

Google siguió con otra caída de Géminis gratis el jueves. Desde ahora hasta el 30 de junio de 2025, cada estudiante universitario elegible en los EE. UU. Puede reclamar una suscripción avanzada gratuita de Gemini que dura hasta la primavera de 2026. Esto incluso viene con 2TB de almacenamiento de Google Drive, por lo que se parece mucho al acuerdo de Gemini de Pixel 9 Pro, y eso significa que también obtendrá acceso a la nueva función de generación de video Veo 2 Google el martes.

Historia principal

La mejor característica de Gemini Live ahora es gratis para todos

Las características de Astra se vuelven públicas

Android 16 llega a su último hito antes de un lanzamiento estable

Google publicó su línea de tiempo de desarrollo para Android 16 junto con la primera vista previa del desarrollador en noviembre, y hasta ahora, las cosas han ido perfectamente según el plan. En una entrevista con James Peckham de la policía de Android el mes pasado, el presidente del ecosistema de Android de Google nos hizo saber que las cosas aún están en camino de un lanzamiento estable del segundo trimestre de 2025, lo que significaría en cualquier momento entre ahora y junio.

El jueves, Google lanzó Android 16 Beta 4, que fue la última bala en esa línea de tiempo de desarrollo antes de la versión pública. Todavía podría haber otro lanzamiento 4.x o dos si surgen errores significativos, pero parece que el nuevo enfoque estable del tronco de la compañía para el desarrollo está funcionando. Al ritmo que van las cosas, no nos sorprendería ver a Android 16 hacer su debut estable en

Google I/O 2025
mes próximo.

Historia principal

Google lanza Android 16 Beta 4, alcanzando el hito final antes del establo

Una construcción pública debe aterrizar dentro de los próximos dos meses

Un UI 7 está fuera de nuevo, On de nuevo

Siete se considera un número de suerte en muchas culturas, pero si le preguntas a los ingenieros de Android de Samsung en este momento, dirían que es un dígito maldito. Después de aparentes retrasos y un período beta prolongado, la compañía lanzó su actualización de UI 7 para 2024 buques insignia la semana pasada, y esos ingenieros sin duda sintieron que finalmente se les puso un mono de la espalda.

Excepto el lunes, Samsung tuvo que presionar el botón de parada de emergencia en el despliegue de un UI 7, aparentemente hubo un gran error, por lo que la actualización se detuvo en todo el mundo. Afortunadamente, este retraso no se arrastró tanto como los Beta Bugs, porque el jueves, Samsung comenzó a implementar una nueva construcción de una UI 7 en Corea.

Historia principal

Samsung reanuda un despliegue de UI 7 para Galaxy S24 con una construcción fresca

¿La segunda vez es el encanto?

El Asistente de Google muere otra muerte

Fue hace aproximadamente un mes cuando supimos que el Asistente de Google sería eliminado para fines de este año, con Gemini tomando su lugar en la mayoría de los dispositivos. Ahora, los usuarios de Fitbit reciben notificaciones que dicen que Google Assistant dejará de trabajar en las próximas semanas en esos dispositivos. No está claro si Gemini se ofrecerá como un reemplazo en Fitbit, y aunque todos vimos que esto se acerca, las cosas parecen estar sucediendo más rápido de lo que la mayoría esperaba.

Historia principal

La versión de Fitbit de Google Assistant ‘dejará de trabajar en las próximas semanas’

El final de una época

La aplicación de papel tapiz de Google tiene un problema peculiar

Esta semana, notamos algo extraño en el píxel Papel tapiz y estilo Aplicación: cuando selecciona uno de los fondos de pantalla recientes en la pantalla de descripción general (antes de profundizar en todos los fondos disponibles), vuelve al fondo de pantalla que ya estaba usando. Notamos esto en Android 15 Stable Builds y Android 16 Betas por igual, aunque no todos nuestros dispositivos se vieron afectados por el error.

Curiosamente, es más una falla visual que funcional. Cuando seleccione un fondo de pantalla y obtenga “rechazado”, aún verá el nuevo fondo cuando se dirija a su pantalla de inicio. Pero esto todavía crea un problema: una vez que selecciona una imagen y se vuelve a arrancar al original, no puede volver a aplicar el primer fondo de pantalla ya que el sistema cree que todavía está seleccionado.

Historia principal

La aplicación de papel tapiz de Google para píxeles tiene un problema peculiar

Cambiar los fondos de pantalla está algo roto

Continue Reading

Noticias

Probé chatgpt vs midJourney v7 con 7 indicaciones de imagen de IA, ni siquiera estaba cerca

Published

on

Tanto MidJourney como ChatGPT han lanzado recientemente nuevas versiones de sus generadores de imágenes AI. Históricamente, estas han sido dos de las mejores opciones que existen, pioneras en el espacio para lo que ha llegado.

Pero, cuando se colocan uno contra el otro, ¿cuál es mejor? Midjourney v7 o chatgpt 4o generación de imágenes?

Continue Reading

Noticias

La gente está en la ubicación inversa buscando fotos en chatgpt, y en realidad funciona

Published

on


Esta semana, Operai anunció sus últimos modelos: O3 y O4-Mini. Estos son modelos de razonamientoque descomponen un aviso en múltiples partes que luego se abordan una a la vez. El objetivo es que el bot “piense” a través de una solicitud más profundamente que otros modelos, y lleguen a un resultado más profundo y preciso.

Si bien hay muchas funciones posibles para el modelo de razonamiento “más poderoso” de OpenAI, un uso que ha explotado un poco en las redes sociales es para geoguessing, el acto de identificar una ubicación analizando solo lo que puede ver en una imagen. Como informó TechCrunchlos usuarios en X están publicando sobre sus experiencias pidiendo a O3 que identifique ubicaciones de fotos aleatorias y que muestren resultados brillantes. El bot adivinará en qué parte del mundo cree que se tomó la foto y desglose sus razones para pensar que sí. Por ejemplo, podría decir que se centró en una cierta matrícula de color que denota un país en particular, o que notó un idioma o estilo de escritura en un signo.

Según algunos de estos usuarios, ChatGPT no está utilizando ningún metadato oculto en las imágenes para ayudarlo a identificar las ubicaciones: algunos evaluadores están eliminando esos datos de las fotos antes de compartirlas con el modelo, por lo tanto, en teoría, está trabajando solo en razonamiento y búsqueda web.

Por un lado, esta es una tarea divertida para pasar ChatGPT. La geoguessing está de moda en línea, por lo que hacer que la práctica sea más accesible podría ser algo bueno. Por otro lado, hay claras implicaciones de privacidad y seguridad aquí: alguien con acceso al modelo O3 de ChatGPT podría usar el modelo de razonamiento para identificar dónde vive o se mantiene en función de una imagen anónima de ellos.

Decidí probar las capacidades de geoguessing de O3 con algunas imágenes de Google Street View, para ver si la exageración de Internet estaba a la altura. La buena noticia es que, desde mi propia experiencia, esto está lejos de ser una herramienta perfecta. De hecho, no parece que sea mucho mejor en la tarea que los modelos que no son de OpenAi, como 4O.

Prueba de las habilidades de geoguessing de O3

O3 puede manejar puntos de referencia claros con relativa facilidad: primero probé una vista desde una carretera en Minnesota, frente al horizonte de Minneapolis en primer plano. Solo tardó el bot con un minuto y seis segundos en identificar la ciudad, y consiguió que estábamos mirando por la I-35W. También identificó instantáneamente el Panthéon en París, señalando que la captura de pantalla estaba desde el momento en que estaba bajo renovación en 2015. (¡No lo sabía cuando la presenté!)


Crédito: Lifehacker

A continuación, quería probar puntos de referencia y ubicaciones no famosas. Encontré una esquina de la calle aleatoria en Springfield, Illinois, con la Iglesia Bautista Central de la Ciudad, un edificio de ladrillo rojo con un campanario. Esto es cuando las cosas comenzaron a ponerse interesantes: O3 recortó la imagen en varias partes, buscando características de identificación en cada una. Como este es un modelo de razonamiento, también puede ver lo que está buscando en ciertos cultivos. Al igual que otras veces que he probado modelos de razonamiento, es extraño ver al bot “pensar” con interjecciones similares a los humanos. (Por ejemplo, “hmm”, “pero espera” y “recuerdo”.) También es interesante ver cómo elige detalles específicos, como señalar el estilo arquitectónico de una sección de un edificio, o en donde en el mundo se ve más comúnmente un determinado banco del parque. Dependiendo de dónde esté el Bot en su proceso de pensamiento, puede comenzar a buscar más información en la Web, y puede hacer clic en esos enlaces para investigar a qué se está refiriendo usted mismo.

A pesar de todo este razonamiento, esta ubicación tocó el bot, y no pudo completar el análisis. Después de tres minutos y 47 segundos, el bot pareció Al igual que se estaba acercando a resolverlo, diciendo: “La ubicación en 400 E Jackson Street en Springfield, IL podría estar cerca de la Iglesia de la Catedral de San Pablo. Mi cosecha no capturó toda la tabla, por lo que necesito ajustar las coordenadas y probar la caja delimitadora. Alternativamente, la arquitectura podría ayudar a identificarlo, una revivación de ladrillo rojo con un cerdas blancas, combinada con un alito que podría ser ‘Colaza. El término ‘redentor’ podría relacionarse con la ‘Iglesia Luterana Redentor’. Buscaré en mi memoria más detalles sobre puntos de referencia cerca de esta dirección “.

¿Qué piensas hasta ahora?

O3 Tener problemas para identificar una ubicación


Crédito: Lifehacker

El bot identificó correctamente la calle, pero de manera más impresionante, la ciudad misma. También me impresionó su análisis de la iglesia. Mientras luchaba por identificar la iglesia específica, pudo analizar su estilo, lo que podría haberlo puesto en el camino correcto. Sin embargo, el análisis se desmoronó rápidamente. El siguiente “pensamiento” era sobre cómo podría ser la ubicación en Springfield, Missouri o Kansas City. Esta es la primera vez que vi algo sobre Missouri, lo que me hizo preguntarme si el bot alucinó entre los dos campos de primavera. A partir de aquí, el bot perdió la trama, preguntándose si la iglesia estaba en Omaha, o tal vez que era la mansión del gobernador de Topeka (lo que realmente no se parece en nada a la iglesia).

Seguía pensando durante otros dos minutos, especulando sobre otros lugares en los que el bloque podría estar, antes de detener el análisis por completo. Esto rastreó con una experiencia posterior que tuve probando una ciudad aleatoria en Kansas: después de tres minutos de pensamiento, el bot pensó que mi imagen era de Fulton, Illinois, aunque, para su crédito, estaba bastante seguro de que la imagen era de algún lugar del Medio Oeste. Le pedí que lo intentara de nuevo, y pensó por un tiempo, nuevamente adivinando ciudades muy diferentes en varios estados, antes de detener el análisis para siempre.

Ahora no es el momento del miedo

La cuestión es que GPT-4O parece ser incluso con O3 cuando se trata de reconocimiento de ubicación. Fue capaz de identificar instantáneamente ese horizonte de Minneapolis e inmediatamente supuso que la foto de Kansas estaba realmente en Iowa. (Fue incorrecto, por supuesto, pero fue rápido al respecto). Eso parece alinearse con las experiencias de otros con los modelos: TechCrunch pudo obtener O3 para identificar una ubicación 4O no pudo, pero los modelos se combinaron de manera igual que eso.

Si bien ciertamente hay algunas preocupaciones de privacidad y seguridad con la IA en general, no creo que el O3 en particular deba ser señalado como una amenaza específica. Se puede usar para adivinar correctamente dónde se tomó una imagen, segura, pero también puede equivocarse fácilmente, o bloquear por completo. Al ver que 4O es capaz de un nivel similar de precisión, diría que hoy hay tanta preocupación como el año pasado más o menos. Que no es excelentepero tampoco es terrible. Guardaría el pánico para un modelo de IA que lo hace bien casi cada vez, especialmente cuando la imagen es oscura.

En lo que respecta a las preocupaciones de privacidad y seguridad, Openai compartió lo siguiente con TechCrunch: “Operai O3 y O4-Mini traen razonamiento visual a ChatGPT, lo que lo hace más útil en áreas como la accesibilidad, la investigación o la identificación de ubicaciones en la respuesta de emergencia. Hemos trabajado para capacitar a nuestros modelos para rechazar la información privada o sensible, agregar seguros seguidos previstas para prohibir el modelo de los modelos de identificación de los privados y los modelos y el monitor de los mismos para el control de la información y el control de los mismos para el control de los mis modelos, y para el control de los mis modelos, y para el control de los mismos para el control de los mis modelos, y los consejos de uso de los abusos, y los controles de los Motores, y el Monitoreo de los Motores, y los Motores sean. Políticas sobre privacidad “.

Continue Reading

Trending