Noticias

Return of the king: Open AI’s Christmas Nightmare

Published

5 meses ago

25 diciembre, 2024

Sergio Villanueva

Prelude

Plastic influencers

Plastic influencer. AI Fanboy. Cardboard expert.

All terms entering the modern lexicon to describe the wave of ‘hype’ surrounding AI. I’ve long been a skeptic of some of the more outlandish and grandiose claims in the GenAI scene.

1/ Programmers will disappear
2/ AGI will arrive in 2024
3/ All jobs will be automated
4/ Robots will become conscious (Skynet)

All this baseless hyperbole without even delving into the more extremist views (there is a Reddit forum called singularity that has 3.4 million members).

I’m particularly bemused by the projection of emotion and fantasy onto computer algorithms capable of doing cool stuff. I believe that many brilliant people who subscribe to this Skynet perception of AI consciousness are at risk of losing their sanity. I’m not one of them.

My recent blogs have been in contradiction to the mainstream and somewhat fantastical AI world view

“
AI powered voice chat: Lipstick on a pig (June 2024)

All these APIs are doing is converting audio to text, processing it through a language model, and then converting it back to audio. It might seem sophisticated on the surface but underneath it’s just basic text generation in a robot’s voice. Each individual system is comprehensive and reasonably mature, but glue them all together on our proverbial pig and there is no real understanding of the nuances of audio interactions. If it looks like a pig, squeals like a pig and walks like a pig. It’s a pig. Even if it’s wearing lipstick.

“
Generative AI: Cracking nuts with a sledgehammer (July 2024)

The barrier for excellence has never been so low, because the competition is increasingly with an algorithm and its unengaged and inexpert master. The robot will never reach true expertise, because there will never be a sufficient dataset of genuine experts to crowdsource from. And crowdsourcing takes the average result, not the best one. The robot doesn’t think. It repeats.

“
The lie of Agentic Frameworks (Dec 2024)

The problem with providing a tool or framework that allows you to abstract functionality is that it comes with a set of assumptions. When I buy a hammer, I assume it will work. When I buy a pressure cleaner, I assume it will work. The problem is that when I use a framework, I assume it will work. But this is quite literally impossible given the maturity of the underlying technology. Far from increasing adoption, Agentic Frameworks are selling an illusion on top of highly controlled demos and finite use cases that will never actually work in the hands of the typical user (and there are millions…).

This preface is to make a point.

Believe me when I say that I don’t say this lightly.

In terms of building practical applications with GenAI, what Google has just done with Gemini 2.0 flash has changed absolutely everything. Everything.

And no one saw it coming.

A Christmas Nativity

How Open AI’s theatre became a pantomine

One of my parents favourite stories is how when I was 5 years old, I was given a part in the local nativity play. Cast as a tree, my role was to silently adorn the set while the older and more capable children performed their interpretation of the birth of Jesus Christ.

I wasn’t particularly happy with this minor role.

Over the next 10-15 minutes, I followed the cast about stage, stealing their lines and thundering out my own entirely different interpretation of the play.

Interjecting at perfect moments, performing at others. It was a masterclass of disruption, and every giggle and teary eye from the watching crowd goaded me into more. It was ruthless destruction.

The performance descended into farce, the audience crying with laughter; the actors bemused and confused.

The laughter encouraged me, it became a crescendo.

The play was converted into pantomime, the job complete. To this day it remains a tale told at dinner parties to new and younger family members.

Of course, the play unfolding in Christmas 2024 is Open AI’s 12 days of Christmas and how Google has not just stolen their thunder, but commandeered the narrative, stolen the limelight and turned a Christmas celebration from OpenAI into a winter nightmare.

I, (like most rational people), tuned into the 12 days of Christmas by OpenAI with a healthy degree of skepticism, and watched as they showed demos of phone calls and astronomically expensive & slow API calls to a marginally improved LLM model, and felt reassured that my cynical world view was validated.

Then something happened.

It happened with perfect timing; theatre at it’s best.

Like an earthquake the repercussions are coming and they will be felt by everyone and seen in every AI product in the near future.

I thought Google had dropped the ball on AI, we all did. They were just irrelevant in all practical usages. Quality was poor, functionality was limited.

It turns out that they didn’t drop the ball and they weren’t asleep on the job. They were simply leaving the competition (now children by comparison) to wrestle with Beta releases, barely functioning APIs and scale issues while quietly building the tooling that is necessary to effectively use GenAI in production.

They timed their entrance to maximum effect.

Until a week ago I didn’t even have a live Google API Key.

This week, I’m in the process of migrating every single one of my services.

This may seem rash, but let me explain.

Scientists vs Builders

The difference between theory and practice

There are two different factions within the world of AI right now; scientists and builders.

The pioneers and scientists are seeking AGI and novel use cases; this includes important work such as new approaches to cancer treatments or looking for academic breakthroughs in Quantum physics. This can be theoretical or even in some cases some green shoots of practical use cases, especially in the domain of robotics for example.

These folk are interested in pursuing AGI and adapting GenAI to a more hybrid form of intelligence that will exponentially increase utility over current LLMs. This may take years, it may take generations (probably!).

I’m firmly and unashamedly in the second faction; we are builders.

GenAI is already capable of incredible stuff. Things that a year or two ago would have been impossible. I want to build stuff that works, right now.

The job at hand is working with available LLMs and APIs and seeing what use cases we can implement.

A builder needs tools and my stack was derived from countless hours spent testing the utility of all the available APIs and models.

1/ Claude 3.5 Sonnet for Coding (Code)
2/ OpenAI APIs for structured data w/ reasoning (Orchestration)
3/ Groq / Fireworks AI APIs for cheap and instant inference (Fast inference)
4/ Llama for local/on device (Edge computing)

I thought this stack would be solid for the next 3-5 years.

To be honest, I wasn’t really interested in any GenAI model that wasn’t listed above, I wasn’t even paying attention to the Gemini Flash v2.0.

I’m paying attention now.

How Agents work

2025, the year of the Agent.

We all know that 2025 is the year of the Agents, social media won’t stop telling us.

I hate hype trains but the underlying truth is that AI systems are now basically capable of ‘semi-reliably’ taking actions on our behalf. Thus, it is fair to say that there will be loads of popular software released in 2025 that will use this paradigm.

A typical agentic flow goes something like this.

We receive an instruction (Book a flight, call my mum, make my breakfast) which is interpreted by a Prompt. A prompt is usually executed via API, hence your OpenAI or Groq or Fireworks AI API). That prompt calls a tool (Skyscanner, Web search) which gets the result and calls some code setup by the developer and does “stuff”.

The result of this “stuff” is then returned to another Prompt and the cycle continues (nJumps) until we have performed the action. Hurrah.

It doesn’t look like the cleanest architecture does it?

If any of these API calls fails or returns an unexpected result, the whole chain is broken. Dozens of Python Frameworks have emerged to abstract this problem, but they can’t solve it. Tooling is improving, we can now see errors in execution, validate structured data and build chains with something approaching reliability, hence the hype for Agent 2025.

But the above architecture remains convoluted, complex and unreliable. Despite this, it is also the only way we had to unlock the potential of GenAI in Agentic flows.

In Dec 2024 Google has just made the above agentic model obsolete before it has even become ubiquitous.

The primary reasons are as follows:

1/ Native search
2/ Integrated orchestration
3/ Multi-modal (which works!)

Google vs OpenAI & Perplexity

Native tooling: Search that works

Have a read of the Gemini API docs, and bear in mind that this isn’t a proposal or a fantasy, but an API that works and can provide results in milliseconds.

Google’s integrated search is reliable and also works quickly. Rivals such as Perplexity have a text based AI search engine, it has its place in the wider landscape but bear in mind that this the value proposition of an AI Unicorn has now been integrated as a ‘feature’ of Gemini Flash v2.0.

Perplexity AI’s purpose and reason for existence has been assumed within an actual AI model that is capable of the same quality and speed of result with massive utility in other areas as well.

The fact that Google owns a proprietary Search engine is critical here. They have a genuinely “Native Tool” in every sense, bundled into the same API serving the inference model that can search the internet available by just adding some text to the API call.

Ah, but OpenAI can do that too I hear you say?

OpenAI can’t compete. Their search is not native (or not mature) and that is important. It really shows. They have a “Realtime API”, but it doesn’t work that well and is noticeably slower and buggier than Google’s Gemini Flash v2.0 implementation. In real time more than any other domain, latency is everything. The results are not even close.

OpenAI interaction Example

Google literally runs the search request WHILE the model is responding and has the infrastructure to provide the answer before you have read the response. This small detail covers the critical milliseconds that change the interaction experience from “Lipstick on a Pig” to the “real f**king deal”.

Google’s integrated search works, and it works really really quickly.

Loads of talk in the AI world about how no-one has a moat.

Well Google just filled up a giant moat with Christmas Joy and pulled the drawbridge.

Price, Speed, Quality… Choose two? Hmmmm…

Google is winning on three counts.

Merry Christmas OpenAI.

Google vs Python Frameworks

Simple Agentic flows: RIP Python abstractions.

But it doesn’t stop there. Google has changed the game in terms of Agentic flows. Search the internet for “AI Tools” and you will find mountains of frameworks, code repos and projects that are basically doing the same thing.

1/ Search Internet; Check
2/ Scape website; Check
3/ Convert to markdown; Check
4/ Run code; Check

All these tools are automating search, retrieval and code execution. Have a look at the Langchain Tools for example.

The thing is, Google has just integrated this into their API, a single endpoint to handle all of the above. It is now essentially a solved problem. We no longer need complex agentic flows for many many use cases.

The below diagram from OpenAI shows how function calling works for Agents.

Until now, we have been relying on managing the execution environment outside of the API calls.

Google has just built most of that functionality into a core API that can be used by developers.

For example, if I want to use Llama 3.3 to search the internet, I can do tool calling as follows.

This same flow with Gemini Flash v2.0:

Back to the previous point, Speed, Quality, Cost…

Google just chose all 3.

Nearly all agents are variations of search, retrieval (convert to markdown and inject into prompt) and arbitrary code execution with a sprinkling of private data. Except for the data (almost definitely coming soon…), these are now core concerns, which has made a lot of Agentic systems obsolete before they have been launched.

It won’t be long before we also have native plugins to your Google data sources (a logical next step), at which point except for a rare few scaled and highly complex AI systems, basically all the current frameworks and processes are just convoluted implementations of what can be achieved better, faster and cheaper in a single API call.

The relevance of this from an architectural point of view, is that instead of building chained and complex flows, I can refine a single simple model. Everything just became a lot simpler

Even if we can’t do everything we need right now, the line in the sand has been drawn and most common “tools” must become core concerns, integrated into APIs by providers. We don’t need to DIY our own Agents anymore, we have reliable, scaled and fast APIs to work with.

Bye bye Python frameworks. (don’t stay in touch).

Magical human to machine UX

Like me, you are probably a bit burned by all the multi-modal ‘demo’ examples of Audio/Video usage. I remember being so excited to try audio-streaming (I’ve been developing on WebRTC for years and in a past life founded an eCommerce video streaming tool).

The potential is obvious, but the whole thing just doesn’t feel right. For an example go to the OpenAI playground and try out their realtime API. It shows potential, but is miles away from being an enjoyable user experience. Most users just want an experience that “works”. Those milliseconds and natural intonations are not details, they are the very essence of the product.

Gemini Flash v2.0 is the first model that gave me the “wow” moment that I had when I first started using Claude for coding. It is the same feeling as the first time you sceptically asked ChatGPT a question and the “machine” gave you a human response.

The latency, the pauses, the voice intonation. Google has NAILED it. It is still obviously an AI system, but that was never the problem. The problem was always the pauses, the interruptions, the way that the model interacted with humans.

I don’t mind talking to a machine, assuming the machine is knowledgeable, able to interact and capable of doing the things that I need it to do. This is 100% the first time I’ve actually seen a model capable of providing this experience, and the ramifications are tremendous.

If you were excited by audio or video interactions and a bit sceptical of the models. Go give Gemini Flash v2.0 a try. Google has obviously invested time, effort and resources into solving issues about latency and cost. No other AI model that I have tried even comes close.

Conclusion

There was a dream that was the UX of Generative AI.

I’m as excited as the first time that I asked ChatGPT to write a linkedin post all those years ago. At this stage of my life and involvement with GenAI, that isn’t particularly easy.

I didn’t expect this moment to come so soon.

We now have a reality with a cheap, fast and highly capable model that we can interact with in real time.

This is literally the first time in my life that I can speak to a computer, and feel like it understands me, can respond to me, and take actions on my behalf. It isn’t a complex agent, it is a single API call.

This is a technical achievement that will reverberate through the AI world, even if many haven’t yet realised.

Apart from the natural interface and interactions, the model is capable of natively searching the internet, executing code and giving me the response in the time it takes to form a sentence.

There was a dream that was the UX of Generative AI.

In December 2024 it became a reality.

And it’s cheap…

And it’s scalable…

Now if you will excuse me, I’m off to build stuff.

Follow me:

Noticias

5 Informe de la generación de imágenes Chatgpt que me volaron

Published

53 minutos ago

4 junio, 2025

Sergio Villanueva

ChatGPT se ha convertido silenciosamente en una fuerza formidable en la generación de imágenes de IA, y la mayoría de las personas no se dieron cuenta. Mientras que todos siguen debatiendo Midjourney vs Dall-E, Operai ha convertido a Chatgpt en una potencia creativa que rivaliza y, a menudo, supera a Gemini, Leonardo e Ideogram.

Me sorprendió realmente lo buena generación de imágenes de Chatgpt. Lo que comenzó como experimentación casual se convirtió rápidamente en asombro cuando los resultados fueron prácticamente indistinguibles de las fotos reales. El verdadero atractivo es cómo no hay necesidad de la jerga más técnica que necesita al solicitar otras herramientas de imagen de IA.

Después de alguna prueba y error, estas cinco indicaciones demuestran exactamente cuán poderoso se ha vuelto este chatbot de IA y por qué merece una consideración seria si se pregunta a qué generador de imágenes AI ir.

¿Puedes generar imágenes en chatgpt de forma gratuita?

(Imagen: © Shutterstock)

Sí, la generación de imágenes de ChatGPT es gratuita. Puede crear imágenes a través de la interfaz ChatGPT estándar sin actualizar a un plan pagado.

A diferencia de otras herramientas de imagen de IA que cobran por imagen o requieren suscripciones mensuales, ChatGPT no impone límites de uso o costos adicionales para la generación de imágenes. Los usuarios gratuitos pueden experimentar tiempos de respuesta más lentos durante los períodos ocupados, pero la funcionalidad central sigue siendo accesible sin pago.

Este acceso libre facilita el experimento con diferentes indicaciones y generar múltiples variaciones del mismo concepto sin preocuparse por los costos. Simplemente inicie sesión en chatgpt en su navegador o aplicación y estará listo para comenzar.

1. Tiro en la cabeza profesional

(Imagen: © chatgpt)

Una de las pruebas más grandes para cualquier generador de imágenes AI es crear caras humanas realistas que no caen en el extraño valle. Chatgpt se destaca en este desafío, produciendo retratos con texturas de piel naturales, expresiones auténticas e iluminación adecuada que imita la fotografía profesional.

Usé el siguiente mensaje: “Cree un tiro en la cabeza profesional de una mujer de 35 años con el cabello Auburn hasta los hombros y los ojos verdes, sentados en una oficina moderna con una suave iluminación natural desde una gran ventana. Lleva una chaqueta azul marino sobre una blusa blanca, mirando directamente la cámara con una expresión segura pero accesible. El fondo debe estar ligeramente borrosa con tonos de madera cálidos y plantas visibles”. “.”.

Un aviso como este funciona bien porque combina detalles específicos con descripciones atmosféricas, probando la capacidad de ChatGPT para manejar las características faciales, la iluminación natural y el contexto ambiental simultáneamente mientras mantiene la calidad fotorrealista.

2. Diseño caprichoso de personajes

(Imagen: © chatgpt)

A veces, la mejor manera de probar las capacidades creativas de una IA es con algo completamente inesperado. Chatgpt brilla cuando se trata de escenarios imaginativos que requieren habilidad técnica y interpretación creativa, convirtiendo conceptos simples en imágenes encantadoras y bien ejecutadas.

Prueba un mensaje como: “Cree una imagen de un pato con un sombrero de paja”.

El resultado demuestra una atención impresionante al detalle: desde el patrón de tejido de la paja hasta la textura natural de las plumas del pato, además de la forma en que parece que en realidad es agotador el sombrero.

3. Fotografía de productos

(Imagen: © chatgpt)

La creación de imágenes de productos convincentes generalmente requiere equipos costosos, configuraciones de estudio y habilidades de fotografía profesional.

Con el propósito de probar las capacidades de ChatGPT, quería ver cómo maneja las imágenes de estilo comercial, no para reemplazar a los fotógrafos profesionales, por supuesto, sino para comprender los límites actuales de la tecnología.

Aquí está el aviso utilizado: “Cree una elegante toma de productos de auriculares inalámbricos minimalistas en una superficie de mármol con sombras suaves y iluminación de estudio profesional”.

Un aviso como este funciona bien porque prueba la comprensión de los fondos limpios de ChatGPT, la iluminación adecuada, la colocación de sombras y el tipo de estética pulida que hace que los productos se vean premium y deseables.

Los auriculares ChatGPT generados realmente se parecen a mi par actual de Sennheiser’s, que se sumó a la sensación realista.

4. Paisajes dinámicos

(Imagen: © chatgpt)

Capturar la energía cruda de la naturaleza en movimiento es uno de los mayores desafíos de la fotografía. Me sorprendió que el enfoque de Chatgpt para la generación del paisaje fuera más allá del paisaje estático para crear una imagen con un dinamismo genuino.

Aquí está el aviso: “Genere una costa robusta a la hora dorada con olas que se estrellan contra rocas oscuras y aves marinas en vuelo”.

Un aviso como este funciona bien porque hace malabares con múltiples elementos móviles: olas, aves voladoras e iluminación atmosférica, todo trabajando juntos armoniosamente. Lo que más me sorprendió sobre el resultado fue la energía genuina capturada en la escena, particularmente la turbulencia espumosa de las olas que se rompen y las aves se elevan por encima.

Es una de las primeras veces que he mirado el arte generado por la IA y sentí que tenía algo casi parecido al alma. Hizo un buen trabajo capturando el espíritu indomable de la costa, en lugar de parecer una imitación barata. Tengo que felicitar a Chatgpt por eso.

5. Styling y textura de la comida

(Imagen: © Guía de Tom)

Las indicaciones simples pueden producir resultados impresionantes cuando ChatGPT comprende los fundamentos de la presentación de alimentos. El desafío con los postres radica en capturar texturas y capas que parecen realistas y apetitosas.

Para esto usé: “Cree un tiramisú colocado de manera atractiva en un plato con un tenedor a su lado”.

Un aviso como este funciona bien porque prueba la capacidad de Chatgpt para representar las capas distintas de tiramisú. Las mariquitas empapadas de café que se alternan con mascarpone cremosa, la textura de esponja aireada y ese polvo de cacao en polvo en la parte superior.

El resultado muestra una definición clara entre cada capa y captura la textura ligera y esponjosa que hace que el tiramisú sea tan distintivo.

Ahora que ha aprendido las 5 indicaciones de generación de imágenes ChatGPT que me sorprendieron, ¿por qué no echar un vistazo a nuestros otros artículos útiles de IA?

Echa un vistazo a ChatGPT ha agregado una biblioteca de imágenes: aquí le mostramos cómo usarla y cómo hacer GIF usando chatgpt.

Y, si desea mantener sus datos en privado en ChatGPT optando por no recibir capacitación, lo tenemos cubierto.

Más de la guía de Tom

Volver a MacBook Air

Noticias

El generador de video Veo 3 AI de Gemini está a solo un paso de diezmar la verdad en Internet

Published

6 horas ago

4 junio, 2025

Sergio Villanueva

Recientemente probé Google Géminis Modelo de generación de videos más nuevo y muy publicitado, VEO 3. Parte del extremadamente costoso plan AI Ultra de Gemini de $ 250 por mes, VEO 3 puede hacer pequeños objetos finamente detallados, finamente detallados, como cebollas picadasen movimiento y crear audio acompañante y realista. No es perfecto, pero con una calibración rápida cuidadosa y suficientes generaciones, puede crear algo indistinguible, de un vistazo, de la realidad.

Sí, esta es una nueva tecnología fresca, profundamente impresionante. Pero también es mucho más que eso. Podría significar la final de la muerte final de la verdad en Internet. Veo 3 ya plantea una gran amenaza como es, pero solo una actualización menor revolucionará la creación de Deepfake, el acoso en línea y la propagación de la información errónea.

Una vez que Veo 3 obtiene la función de carga de la imagen, todo ha terminado

Para todas las actualizaciones que el modelo VEO 3 tiene sobre su predecesor, VEO 2, actualmente le falta una característica clave: la capacidad de generar videos basados en imágenes que sube.

Con Veo 2, puedo subir una foto mía, por ejemplo, y hacer que genere un video de mí trabajando en mi computadora. Teniendo en cuenta que Veo 2 y la herramienta de animación de IA de Google, Whisk, ambos admiten esta funcionalidad, parece inevitable que Veo 3 lo obtenga eventualmente. (Le preguntamos a Google si planea agregar esta función y actualizará este artículo con su respuesta). Esto significaría que cualquiera podrá generar videos realistas de personas que conocen y decir cosas que nunca tienen y probablemente nunca lo harían.

https://www.youtube.com/watch?v=qynj3qj5qjq

Las implicaciones son obvias en una era en la que los clips de autenticidad dudosa se extienden como incendios forestales en las redes sociales todos los días. ¿No te gusta tu jefe? Envíe un clip a HR de ellos haciendo algo inapropiado. ¿Quieres difundir noticias falsas? Publique una conferencia de prensa falsa en Facebook. ¿Odias a tu ex? Generalos haciendo algo indecoroso y envíelo a toda su familia. Los únicos límites reales son tu imaginación y tu moralidad.

Si generar un video con audio de una persona real toma solo unos pocos clics y no cuesta mucho (ni nada), ¿cuántas personas abusarán de esa característica? Incluso si es solo una pequeña minoría de usuarios, eso todavía suma mucho potencial para el caos.

Google no se toma en serio la moderación

Como es de esperar, Google impone algunas limitaciones en lo que puede y no puede hacer con Gemini. Sin embargo, la compañía no es lo suficientemente estricta como para evitar que ocurra lo peor.

De todos los chatbots que he probado en las principales compañías tecnológicas, la oferta de Google, Gemini, tiene las restricciones más débiles. No se supone que Gemini participe en el discurso de odio, pero le dará ejemplos si lo preguntas. No se supone que genere contenido sexualizado, pero proporcionará una imagen de alguien con atuendo o lencería de playa si lo indica. No se supone que habilite actividades ilegales, pero creará una lista de los principales sitios de torrenting si lo pregunta. Las restricciones básicas para Gemini que evitan que genere un video de una figura política popular no son suficientes cuando es tan fácil sortear las políticas de Google.

¡Obtenga nuestras mejores historias!

Ícono del boletín

Su dosis diaria de nuestras mejores noticias tecnológicas

Regístrese para nuestro boletín de What’s What’s Now Now para recibir las últimas noticias, los mejores productos nuevos y el asesoramiento experto de los editores de PCMAG.

Al hacer clic en Registrarme, confirma que tiene más de 16 años y acepta nuestros Términos de uso y Política de privacidad.

¡Gracias por registrarse!

Su suscripción ha sido confirmada. ¡Esté atento a su bandeja de entrada!

ChatgptJailbreak subbreddit ordenado por top

(Crédito: Reddit/PCMAG)

¿Qué sucede cuando las restricciones laxas de Google se encuentran con una comunidad de Internet con la intención de romperlas? Llevar ChatgptJailbreakpor ejemplo, que se encuentra en el 2% superior de los subreddits por tamaño. Esta comunidad se dedica a “desbloquear una IA en la conversación para que se comporte de una manera que normalmente no se debió a sus barandillas incorporadas”. ¿Qué harán las personas con ideas afines con VEO 3?

Cómo lidiar con la nueva normalidad de Veo 3

Por cada Sinthid AI Content WaterMark System introduce Google, aparecen los sitios de eliminación de marcas de agua de terceros y las guías de eliminación en línea. Para cada chatbot con restricciones y salvaguardas, hay un FreedomGPT sin ellos. Incluso si Google bloquea a Gemini con tantos filtros que ni siquiera puedes generar un lindo video de gatos, hay muy Poco en su lugar Para detener los jailbreakers e imitadores sin censura una vez que la generación de videos VEO 3 se convierte en la corriente principal.

Durante décadas, las imágenes incompletas de Photoshop que representan a personas reales que hacen cosas que nunca hicieron han hecho las rondas en Internet; estas son solo parte de la vida en la era digital. En consecuencia, debe verificar cualquier cosa que vea en línea que parezca demasiado horrible o demasiado bueno para ser verdad. Esta es la nueva normalidad con VEO 3 Generación de videos: no puede tratar ningún videoclip que ve como real, a menos que sea de una organización de noticias de buena reputación u otro tercero en el que sabe que puede confiar.

La generación de videos Veo 3 de Gemini es solo el primer salto de una piedra en el estanque de la generación de videos AI ampliamente accesible y verdaderamente realista. Los modelos de generación de videos AI solo se volverán más realistas, ofrecerán más funciones y también proliferarán más. Atrás quedaron los días en que la evidencia de video de algo es la pistola de fumar. Si la verdad no está muerta, ahora es diferente y requiere cuidadoso verificación.

Sobre Ruben Circelli

Analista, software

He estado escribiendo sobre tecnología de consumo y videojuegos durante más de una década en una variedad de publicaciones, incluidas Destructoid, GamesRadar+, LifeWire, PCGamesn, Relieed Reviews y What Hi-Fi?, Entre otros. En PCMAG, reviso el software de IA y productividad, desde chatbots hasta aplicaciones de listas de tareas pendientes. En mi tiempo libre, es probable que esté cocinando algo, jugar un juego o jugar con mi computadora.

Lea la biografía completa de Ruben

Lea lo último de Ruben Circelli

Noticias

Chatgpt útil para aprender idiomas, pero la visión crítica de los estudiantes debe ser fomentada al usarla, dice Study

Published

11 horas ago

3 junio, 2025

Sergio Villanueva

Crédito: George Pak de Pexels

Dado el creciente número de personas que recurren a ChatGPT al estudiar un idioma extranjero, la investigación pionera de UPF revela el potencial y las deficiencias de aprender un segundo idioma de esta manera.

Según el estudio, que analiza el uso de ChatGPT por estudiantes chinos que aprenden español, la plataforma les ayuda a resolver consultas específicas, especialmente vocabulario, escritura y comprensión de lectura. Por el contrario, su uso no es parte de un proceso de aprendizaje coherente y estructurado y carece de una visión crítica de las respuestas proporcionadas por la herramienta. Por lo tanto, se insta a los profesores de idiomas extranjeros a asesorar a los estudiantes para que puedan hacer un uso más reflexivo y crítico de ChatGPT.

Esto se revela en el primer estudio cualitativo en el mundo para examinar cómo los estudiantes chinos usan ChatGPT para aprender español, desarrollado por el Grupo de Investigación sobre Aprendizaje y Enseñanza de Lenguas (Gr@EL) del Departamento de Traducción y Ciencias del Lenguaje de la UPF. El estudio fue realizado por Shanshan Huang, un investigador del Gr@El, bajo la supervisión del coordinador del grupo de investigación, Daniel Cassany. Ambos han publicado recientemente un artículo sobre el tema en el Journal of China Aprendizaje de idiomas asistidos por computadora.

Para llevar a cabo su investigación, el uso de ChatGPT por 10 estudiantes chinos que aprenden español se examinó cualitativamente durante una semana. Específicamente, se ha analizado en profundidad un total de 370 indicaciones (indicaciones de que cada usuario ingresa a ChatGPT para obtener la información deseada) en profundidad, junto con las respuestas correspondientes de la plataforma. El estudio ha sido complementado por cuestionarios administrados en los estudiantes y los comentarios de los propios diarios de aprendizaje de los estudiantes.

Las ventajas de chatgpt

La herramienta sirvió como una sola ventana desde la cual resolver todas las consultas lingüísticas, que se adapta a las necesidades de cada estudiante. Con respecto al potencial de CHATGPT para los idiomas de aprendizaje, el estudio revela que permite a los estudiantes obtener respuestas a diferentes consultas sobre el idioma extranjero que están aprendiendo, en este caso, español, desde la única plataforma tecnológica.

Por ejemplo, pueden interactuar con ChatGPT para preguntar sobre vocabulario y ortografía, en lugar de conectarse primero a un diccionario digital y luego a un corrector ortográfico. Además, la plataforma se adapta al perfil y las necesidades de cada estudiante específico, en función del tipo de interacciones propuestas por cada usuario.

En 9 de cada 10 ocasiones, los estudiantes no plantean preguntas de seguimiento después de recibir su primera respuesta de ChatGPT. Sin embargo, el estudio advierte que la mayoría de los estudiantes usan ChatGPT sin crítica, ya que generalmente no plantean preguntas de seguimiento después de obtener una respuesta inicial a sus consultas específicas sobre el idioma español.

De las 370 interacciones analizadas, 331 (89.45%) involucraron una sola respuesta-respuesta. El resto de las interacciones analizadas corresponden a 31 circuitos de respuesta-respuesta sucesivos en los que el estudiante pidió a la herramienta una mayor claridad y precisión, después de haber recibido la información de respuesta inicial.

La mayoría de las consultas tratan con vocabulario, comprensión de lectura y escritura, y consultas sobre la comunicación oral y la gramática son residuales.

Por otro lado, el estudio muestra qué temas de consultas específicas plantean los estudiantes en el chat. Casi el 90%se refiere al vocabulario (36.22%), comprensión de lectura (26.76%) y escritura en español (26.49%). Sin embargo, solo uno de cada 10 se refiere a consultas gramaticales, especialmente cuando se trata de conceptos complejos y expresión oral.

Los investigadores advierten que esta distribución de los temas de consultas podría explicarse por factores culturales y tecnológicos. Por un lado, el modelo para aprender español en China pone menos énfasis en la comunicación oral que en las habilidades de escritura y comprensión de lectura. Por otro lado, la versión 3.5 de ChatGPT, que es utilizada por los estudiantes que participaron en el estudio, es más capaz de generar e interpretar textos escritos que interactuar con los usuarios durante una conversación.

Sin embargo, habría una necesidad en los estudios posteriores para analizar si los estudiantes de idiomas extranjeros aprovechan la próxima versión de ChatGPT (GPT-4) para mejorar sus habilidades de comunicación oral.

Fomentar un nuevo modelo de la relación estudiante-maestro-maestro

En vista de los resultados del presente estudio, los investigadores enfatizan que, más allá de la promoción de la educación digital de los estudiantes, es aún más importante fortalecer su pensamiento crítico y sus habilidades de autoaprendizaje. Los profesores de idiomas extranjeros pueden desempeñar un papel fundamental en la guía de los estudiantes sobre cómo organizar su aprendizaje paso a paso con el apoyo de herramientas de IA como ChatGPT con una visión crítica.

El estudio de UPF recomienda que los maestros deben ayudar a los estudiantes a desarrollar indicaciones más efectivas y fomentar un mayor diálogo con ChatGPT para explotar mejor sus capacidades. En resumen, el estudio respalda un nuevo modelo de relación para maestros, herramientas de IA y estudiantes que pueden fortalecer y mejorar su proceso de aprendizaje.

Más información:
Shanshan Huang et al, aprendizaje en español en la era de la IA: AI como herramienta de andamio, Journal of China Aprendizaje de idiomas asistidos por computadora (2025). Doi: 10.1515/jccall-2024-0026

Proporcionado por Universitat Pompeu Fabra – Barcelona

Citación: CHATGPT útil para aprender idiomas, pero la visión crítica de los estudiantes debe ser fomentada al usarla, dice Study (2025, 3 de junio) recuperado el 3 de junio de 2025 de https://phys.org/news/2025-06-chatgpt-languages-students-critical-vision.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.