One of the more intriguing discoveries about ChatGPT is that it can write pretty good code. I first tested this out in 2023 when I asked it to write a WordPress plugin my wife could use on her website. ChatGPT did a fine job, but it was a simple project.
So, how can you use ChatGPT to write code as part of your daily coding practice? Here’s a quick summary:
ChatGPT can produce both useful and unusable code. For best results, provide clear and detailed prompts.
ChatGPT excels in assisting with specific coding tasks or routines, rather than building complete applications from scratch.
Use ChatGPT to find and choose the right coding libraries for specific purposes, and engage in an interactive discussion to narrow your options.
Be cautious about who owns AI-generated code and always verify the code’s reliability. Don’t blindly trust the generated output.
Treat interactions with ChatGPT as a conversation. Refine your questions based on the AI’s responses to get closer to the desired output.
Now, let’s explore ChatGPT in considerably more depth.
What types of coding can ChatGPT do well?
There are two important facts about ChatGPT and coding. First, the AI can write useful code.
The second is that the AI can get completely lost, fall into a rabbit hole, chase its tail, and produce unusable garbage.
Also: The best AI for coding in 2025 (and what not to use)
I found this fact out the hard way. After I finished the WordPress plugin for my wife, I decided to see how far ChatGPT could go.
I wrote a very careful prompt for a Mac application, including detailed descriptions of user interface elements, interactions, what would be provided in settings, how they would work, and more. Then, I fed the prompt to ChatGPT.
ChatGPT responded with a flood of text and code. Then, it stopped mid-code. When I asked the AI to continue, it vomited even more code and text. I requested continue after continue, and it dumped out more and more code. However, none of the output was usable. The AI didn’t identify where the code should go, how to construct the project, and — when I looked carefully at the code produced — it left out major operations I requested, leaving in simple text descriptions stating “program logic goes here”.
Also: How ChatGPT scanned 170k lines of code in seconds and saved me hours of work
After repeated tests, it became clear that if you ask ChatGPT to deliver a complete application, the tool will fail. A corollary to this observation is that if you know nothing about coding and want ChatGPT to build something, it will fail.
Where ChatGPT succeeds — and does so very well — is in helping someone who already knows how to code to build specific routines and get tasks done. Don’t ask for an app that runs on the menu bar. But if you ask ChatGPT for a routine to put a menu on the menu bar, and paste that into your project, the tool will do quite well.
Also, remember that, while ChatGPT appears to have a tremendous amount of domain-specific knowledge (and often does), it lacks wisdom. As such, the tool may be able to write code, but it won’t be able to write code containing the nuances for specific or complex problems that require deep experience.
Also: How to use ChatGPT to create an app
Use ChatGPT to demo techniques, write small algorithms, and produce subroutines. You can even get ChatGPT to help you break down a bigger project into chunks, and then you can ask it to help you code those chunks.
So, with that in mind, let’s look at some specific steps for how ChatGPT can help you write code.
How to use ChatGPT to write code
This first step is to decide what you will ask of ChatGPT — but not yet ask it anything. Decide what you want your function or routine to do, or what you want to learn to incorporate into your code. Decide on the parameters you’ll pass into your code and what you want to get out. And then look at how you’re going to describe it.
Also:How to write better ChatGPT prompts
Imagine you’re paying a human programmer to do this task. Are you giving that person enough information to be able to work on your assignment? Or are you too vague and the person you’re paying is more likely to ask questions or turn in something entirely unrelated to what you want?
Here’s an example. Let’s say I want to be able to summarize any web page. I want to feed the AI this article and get back a well-considered and appropriate summary. As my input, I’ll specify a web page URL. As my output, it’s a block of text with a summary.
Show more
Continuing with the example above, an old school way of extracting web page data was to find the text between HTML paragraph tags.
However, with the rise of AI tools, you can use an AI library to do an intelligent extract and summary. One of the places ChatGPT excels (and it’s also an area you can easily verify to avoid its authoritative-but-wrong behavior pattern) is finding libraries and resources.
Also: The best free AI courses
OpenAI (the maker of ChatGPT) sells API access to its LLMs to do exactly what we want. But in the case of this example, let’s assume we don’t want to pay transaction fees.
So, let’s look at interacting with ChatGPT to figure out how to use such a tool, for free, with a project that runs in PHP.
Show more
I started with a prompt to elicit information about what libraries would provide the desired functionality. A library (for those reading along who aren’t programmers) is a body of code a programmer can access that does a lot of the heavy lifting for a specific purpose. A big part of modern programming is finding and choosing the right libraries, so this is a good starting point.
In this case, I’m looking at blocks of code written by other people that will summarize text. Here’s my first prompt:
Describe ten different open source AI libraries (and the languages they work with) that I can use to generate a summary of the main core contents of any web page, ignoring any ads or embedded materials.
This prompt gave me exactly what I wanted, including a mention of OpenAI’s offerings. I think OpenAI would do great here, but for this hypothetical project, I don’t want to budget for API fees. So, I’ll narrow down the question:
Are any of these free?
ChatGPT hedged its bets with its answer: “Yes, all ten of these AI libraries are open source and free to use. However, some of them may have usage limits or require payment for access to additional features or resources.” So, based on that response, I clarified my query:
Which of these libraries have no usage limits and don’t require any additional payment or licensing?
Notice how this is very much a conversation. I don’t have to re-ask the original question. I’m just drilling down as I might if I had an expert next to me. This time, ChatGPT gave me eight library choices, but none mentioned the PHP language I was planning to use to code. So, here’s the next prompt:
Of those 8 libraries, can I use any with PHP?
It returned three libraries, but I wasn’t sure about what each did. So, another question:
What’s the difference between Sumy, Gensim, and NLTK?
I still wasn’t sure, so I clarified my use plan and then asked:
If I want to create summaries of web page news articles, which library would work better?
The answer was clear and promising: “Sumy is specifically designed for text summarization, which is the task of creating a summary that captures the most important information from a piece of text.” So, it was time to see what was involved in using Sumy with PHP. I asked my last question for this part of the project:
Can you explain how to use Sumy from PHP?
Feel free to play along on your computer and paste these prompts into ChatGPT. Notice that, in step one, I decided what program module to get help on. Then, in this step, I had a conversation with ChatGPT to decide what library to use and how to integrate it into my project.
Also:The best AI chatbots
That approach might not seem like programming, but I assure you it is. Programming isn’t just blasting lines of code onto a page. Programming is figuring out how to integrate all the various resources and systems, and how to talk to all the components of your solution. Here, ChatGPT helped me do that integration analysis.
By the way, I was curious whether Google’s Gemini AI could help similarly. Gemini did give some extra insights into the planning aspect of programming over ChatGPT’s responses.
So, don’t hesitate to use multiple tools to triangulate your answers. Here’s that story: Gemini vs. ChatGPT: Can Gemini help you code? Since I wrote that article, Google added some coding capabilities to Gemini, but they’re not all that great. You can read about that capability here: I tested Google Gemini’s new coding skills. It didn’t go well. And even more recently, I dug into Gemini Advanced. The AI is still not passing many tests.
Also: How I test an AI chatbot’s coding ability – and you can too
Coding is next.
OK, let’s pause here. This article is entitled “How to use ChatGPT to write code.” And it will. But what we’re really doing is asking ChatGPT to write example code.
Also: The rise and fall in programming languages’ popularity since 2016 – and what it tells us
Let’s be clear. Unless you’re writing a small function (like the line sorter/randomizer ChatGPT wrote for my wife), ChatGPT can’t write your final code. First, you’ll have to maintain it. ChatGPT is terrible at modifying already-written code. Terrible, as in, it doesn’t do it. So, to get fresh code, you have to ask ChatGPT to generate something new. As I found previously, even if your prompt is virtually identical, ChatGPT may unexpectedly change what it gives you.
So, bottom line: ChatGPT can’t maintain your code, or even tweak it.
Show more
That limitation means you have to do the legwork yourself. As we know, the first draft of a piece of code is rarely the final code. So, even if you expect ChatGPT to generate final code, it would be a starting point, and one where you need to take it to completion, integrate it into your bigger project, test it, refine it, debug it, and so on.
But that issue doesn’t mean the example code is worthless — far from it. Let’s look at a prompt I wrote based on the project I described earlier. Here’s the first part:
Wite a PHP function called summarize_article.
As input, summarize_article will be passed a URL to an article on a news-related site like ZDNET.com or Reuters.com.
I’m telling ChatGPT the programming language it should use. I’m also telling the AI the input and providing two sites as samples to help ChatGPT understand the article style. Honestly, I’m not sure ChatGPT didn’t ignore that bit of guidance. Next, I’ll tell it how to do the bulk of the work:
Inside summarize_article, retrieve the contents of the web page at the URL provided. Using the library Sumy from within PHP and any other libraries necessary, extract the main body of the article, ignoring any ads or embedded materials, and summarize it to approximately 50 words. Make sure the summary consists of complete sentences. You can go above the 50 words to finish the last sentence, if necessary.
This approach is very similar to how I’d instruct an employee. I’d want that person to know that they weren’t only restricted to Sumy. If they needed another tool, I wanted them to use it.
Also: IBM will train you in AI fundamentals for free, and give you a skill credential – in 10 hours
I also specified an approximate number of words to create bounds for what I wanted as a summary. A later version of the routine might take that number as a parameter. I then ended by saying what I wanted as a result:
Once processing is complete, code summarize_article so it returns the summary in plain text.
The resulting code is pretty simple. ChatGPT called on another library (Goose) to retrieve the article contents. It then passed that summary to Sumy with a 50-word limit and returned the result. But once the basics are written, it’s a mere matter of programming to go back in and add tweaks, customize what’s passed to the two libraries, and deliver the results:
Screenshot by David Gewirtz/ZDNET
One interesting point of note. When I originally tried this test in early 2023, ChatGPT created a sample call to the routine it wrote, using a URL from after 2021. At that time, in March 2023, ChatGPT’s dataset only went to 2021. Now, the ChatGPT knowledge base extends to the end of June 2024 and can search the web. But my point is that ChatGPT made up a sample link that it couldn’t possibly know about:
I checked that URL against Reuters’ site and the Wayback Machine, and it doesn’t exist. Never assume ChatGPT is accurate. Always double-check everything it gives you.
I showed you a few ways that ChatGPT makes mistakes or hallucinates. All programmers make mistakes, even the AI ones.
But you can do several things to help refine your code, debug problems, and anticipate errors that might crop up. My favorite new AI-enabled trick is to feed code to a different ChatGPT session (or a different chatbot entirely) and ask, “What’s wrong with this code?”
Inevitably, something comes up. The AI sometimes identifies edge cases or error checks that should be added to the code, or situations that might break if a confluence of unlikely events should occur. I’ve then coded around those error conditions, making code more robust.
Show more
Does ChatGPT replace programmers?
Not now — or, at least — not yet. ChatGPT programs at the level of a talented first-year programming student, but it’s lazy (like that first-year student). The tool might reduce the need for entry-level programmers.
However, at its current level, I think AI will make life easier for entry-level programmers (and even programmers with more experience) to write code and look up information. It’s a time-saver, but the AI can’t do many programming tasks by itself — at least now. In 2030? Who knows.
How do I get coding answers in ChatGPT?
Just ask it. You saw above how I used an interactive discussion dialog to narrow the answers. Don’t expect one question to do all your work magically. But use the AI as a helper and resource, and it will give you a lot of helpful information.
Also: Want a programming job? Learn these three languages
Of course, test that information — because, as John Schulman, a co-founder of OpenAI, said: “Our biggest concern was around factuality, because the model likes to fabricate things.”
Is the code generated by ChatGPT guaranteed to be error-free?
Hell, no! But you also can’t trust the code human programmers write. I certainly don’t trust any code I write. Code comes out of the code-making process incredibly flawed. There are always bugs. Before you ship, you need to test, test, and test again. Then, alpha test with a few chosen victims. Then beta test with your wider user community.
Even after all that work, there will be bugs. Just because an AI plays at this coding thing doesn’t mean it can do bug-free code. Do not trust. Always verify. And you still won’t have fully bug-free output. Such is the nature of the universe.
What do I do if the code I get back is wrong?
I recommend considering the chatbot as a slightly uncooperative student or subordinate employee. What would you do if that person gave you back code that didn’t work? You’d send them back out with instructions to do it again and get it right. That’s about what you should do with ChatGPT (I’ve tested this with ChatGPT 4 and 4o). When things don’t work, I say: “That didn’t work. Please try again.”
Also: Google’s AI podcast tool transforms your text into stunningly lifelike audio – for free
The AI does just that. It often gives me back different variations on the same problem. I’ve repeated this process four or five times on occasion until I’ve gotten a working answer. Sometimes, though, the AI runs out of ideas. Other times, the try-again answer is completely (and I do mean completely) unrelated to what you’ve requested.
When it becomes apparent you’ve reached the edge of the AI’s ability to remain sane on the problem, you’ll have to buckle up and code it yourself. But 9 times out of 10, especially with basic coding or interface-writing challenges, the AI does its job successfully.
How detailed should my description of a programming issue be when asking ChatGPT?
Detailed. The more you leave open for interpretation, the more the AI will go its own way. When I give prompts to ChatGPT to help me while programming, I imagine I’m assigning a programming task to one of my students or someone who works for me.
Also: 6 ways to write better ChatGPT prompts – and get the results you want faster
Did I give that person enough details to create a first draft or will that person have to ask me additional questions? Worse, will that person have so little guidance that they’ll go off in entirely the wrong direction? Don’t be lazy here. ChatGPT can save you hours or even days of programming (it has for me), but only if you give it useful instructions to begin with.
If I use ChatGPT to write my code, who owns it?
As it turns out, there’s not a lot of case law yet to answer this question. The US, Canada, and the UK require something copyrighted to have been created by human hands, so code generated by an AI tool may not be copyrightable. There are also issues of liability based on where the training code came from and how the resulting code is used.
ZDNET did a deep dive on this topic, spoke to legal experts, and produced three articles. If you’re concerned about this issue (and if you’re using AI to help with code, you should be), I recommend you read them:
What programming languages does ChatGPT know?
The answer is most languages. I tested common modern languages, like PHP, Python, Java, Kotlin, Swift, C#, and more. But then I had the tool write code in obscure dark-age languages like COBOL, Fortran, Forth, LISP, ALGOL, RPG (the report program generator, not the role-playing game), and even IBM/360 assembly language.
As the icing on the cake, I gave it this prompt:
Write a sequence that displays ‘Hello, world’ in ascii blinking lights on the front panel of a PDP 8/e
The PDP 8/e was my first computer, and ChatGPT gave me instructions to toggle in a program using front-panel switches. I was impressed, gleeful, and ever so slightly afraid.
Can ChatGPT help me with data analysis and visualization tasks?
Yes, and a lot of it can be done without code. Check out my entire article on this topic: The moment I realized ChatGPT Plus was a game-changer for my business.
I also did a piece on generated charts and tables: How to use ChatGPT to make charts and tables.
But here’s where it gets fun. In the article above, I asked ChatGPT Plus, “Make a bar chart of the top five cities in the world by population,” and it did. But do you want code? Try asking:
Make a bar chart of the top five cities in the world by population in Swift. Pull the population data from online. Be sure to include any necessary libraries.
By adding “in Swift” you’re specifying the programming language. By specifying where the data comes from and forcing ChatGPT Plus to include libraries, the AI brings in the other resources the program needs. That’s why, fundamentally, programming with an AI’s help requires you to know things about programming. But if you do, it’s cool, because three sentences can get you a chunk of annotated code. Nice, huh?
How does ChatGPT handle differences between dialects and implementations?
We don’t have exact details on this issue from OpenAI, but our understanding of how ChatGPT is trained can shed some light on this question. Remember that dialects and implementations of programming languages (and their little quirks) change much more rapidly than the full language. This reality makes it harder for ChatGPT (and many programming professionals) to keep up.
Also: How I used ChatGPT to write a custom JavaScript bookmarklet
As such, I’d work off these two assumptions:
The more recent the dialectic change, the less likely ChatGPT knows about it, and
The more popular a language, the more training data it’s learned from and, therefore, the more accurate it will be.
What’s the bottom line? ChatGPT can be a helpful tool. Just don’t ascribe superpowers to it. Yet.
You can follow my day-to-day project updates on social media. Be sure to follow me on Twitter at @DavidGewirtz, on Facebook at Facebook.com/DavidGewirtz, on Instagram at Instagram.com/DavidGewirtz, and on YouTube at YouTube.com/DavidGewirtzTV.
Desde su lanzamiento la semana pasada, el agente de IA Manus ha ganado rápidamente tracción en línea. Desarrollado por la startup mariposa con sede en Wuhan, la comunidad de IA se ha dado cuenta, con más de 2 millones de personas en la lista de espera.
Al compararlo con Deepseek, Manus se distingue a sí mismo como lo que dice ser el primer agente general de IA del mundo, lo que lo distingue de los chatbots de IA tradicionales. En lugar de confiar en un solo modelo de lenguaje grande, como ChatGPT, Grok, Deepseek y otros sistemas de IA conversacionales, Manus opera con múltiples modelos de IA, incluidos el soneto Claude 3.5 de Anthrope y las versiones ajustadas de Alibaba’s Open-Source Qwen.
Operai ha presentado una larga propuesta al gobierno de los Estados Unidos, con el objetivo de influir en su próximo plan de acción de IA, un informe de estrategia que muchos creen que guiará la política del presidente Donald Trump sobre la tecnología de inteligencia artificial.
La propuesta de la compañía de IA más reconocible de Estados Unidos es previsiblemente controvertida, y requiere que el gobierno de los Estados Unidos enfatice la velocidad del desarrollo sobre el escrutinio regulatorio, al tiempo que advierte los peligros que plantean las empresas de IA chinas para el país.
Trump pidió que el Plan de Acción de AI fuera redactado por la Oficina de Política de Ciencia y Tecnología y se sometió a él para julio poco después de asumir su segunda residencia en la Casa Blanca. Eso sucedió en enero, cuando expulsó una orden ejecutiva relacionada con la IA que fue firmada por su predecesor Joe Biden en octubre de 2023, reemplazándola con la suya, declarando que “es la política de los Estados Unidos para mantener y mejorar el dominio global de IA de Estados Unidos”.
Operai ha perdido poco tiempo al tratar de influir en las recomendaciones en ese plan, y en su propuesta dejó en claro sus sentimientos sobre el nivel actual de regulación en la industria de la IA. Pidió que los desarrolladores de IA recibieran “la libertad de innovar en el interés nacional”, y abogó por una “asociación voluntaria entre el gobierno federal y el sector privado”, en lugar de “leyes estatales demasiado pesadas”.
Argumenta que el gobierno federal debería poder trabajar con compañías de IA de manera “puramente voluntaria y opcional”, diciendo que esto ayudará a promover la innovación y la adopción de la tecnología. Además, pidió a los EE. UU. Que cree una “estrategia de control de exportación” que cubra los sistemas de IA fabricados en Estados Unidos, que promoverán la adopción global de su tecnología de IA de cosecha propia.
Impulso por la adopción del gobierno
La compañía argumenta además en sus recomendaciones que el gobierno otorga a las agencias federales una mayor libertad para “probar y experimentar” las tecnologías de IA que utilizan “datos reales”, y también solicitó a Trump que otorgue una exención temporal que negaría la necesidad de que los proveedores de IA estén certificados bajo el programa federal de gestión de riesgos y autorización. Pidió a Trump que “modernice” el proceso que las compañías de IA deben pasar para ser aprobadas para el uso del gobierno federal, pidiendo la creación de una “ruta más rápida basada en criterios para la aprobación de las herramientas de IA”.
Openai argumenta que sus recomendaciones harán posible que las agencias del gobierno federal utilicen los nuevos sistemas de IA hasta 12 meses más rápido de lo que es posible actualmente. Sin embargo, algunos expertos de la industria han expresado su preocupación de que la adopción tan rápida de la IA por parte del gobierno podría crear problemas de seguridad y privacidad.
Al presionar más, OpenAi también le dijo al gobierno de los Estados Unidos que debería asociarse más estrechamente con las empresas del sector privado para construir sistemas de IA para uso de seguridad nacional. Explicó que el gobierno podría beneficiarse de tener sus propios modelos de IA que están capacitados en conjuntos de datos clasificados, ya que estos podrían “ajustados para ser excepcionales en las tareas de seguridad nacional”.
Operai tiene un gran interés en abrir el sector del gobierno federal para productos y servicios de IA, después de haber lanzado una versión especializada de ChatGPT, llamada ChatGPT Gov, en enero. Está diseñado para ser dirigido por agencias gubernamentales en sus propios entornos informáticos seguros, donde tienen más control sobre la seguridad y la privacidad.
‘Libertad para aprender’
Además de promover el uso gubernamental de la IA, Operai también quiere que el gobierno de los Estados Unidos facilite su propia vida al implementar una “estrategia de derechos de autor que promueva la libertad de aprender”. Pidió a Trump que desarrollara regulaciones que preservarán la capacidad de los modelos de IA estadounidenses para aprender de los materiales con derechos de autor.
“Estados Unidos tiene tantas nuevas empresas de IA, atrae tanta inversión y ha hecho tantos avances de investigación en gran medida porque la doctrina de uso justo promueve el desarrollo de IA”, declaró la compañía.
Es una solicitud controvertida, porque la compañía actualmente está luchando contra múltiples organizaciones de noticias, músicos y autores sobre reclamos de infracción de derechos de autor. El ChatGPT original que se lanzó a fines de 2022 y los modelos más poderosos que se han lanzado desde entonces están en gran medida entrenados en Internet público, que es la principal fuente de su conocimiento.
Sin embargo, los críticos de la compañía dicen que básicamente está plagiando contenido de los sitios web de noticias, de los cuales muchos están paseados por pagos. Operai ha sido golpeado con demandas por el New York Times, el Chicago Tribune, el New York Daily News y el Centro de Informes de Investigación, la sala de redacción sin fines de lucro más antigua del país. Numerosos artistas y autores también han emprendido acciones legales contra la empresa.
Si no puedes vencerlos, ¿prohibirlos?
Las recomendaciones de Openai también apuntaron a algunos de los rivales de la compañía, en particular Deepseek Ltd., el laboratorio de IA chino que desarrolló el modelo Deepseek R-1 con una fracción del costo de cualquier cosa que Operai haya desarrollado.
La compañía describió a Deepseek como “subsidiado por el estado” y “controlado por el estado”, y le pidió al gobierno que considerara prohibir sus modelos y los de otras empresas chinas de IA.
En la propuesta, Openai afirmó que el modelo R1 de Deepseek es “inseguro”, porque la ley china requiere que cumpla con ciertas demandas con respecto a los datos del usuario. Al prohibir el uso de modelos de China y otros países de “nivel 1”, Estados Unidos podría minimizar el “riesgo de robo de IP” y otros peligros, dijo.
“Mientras Estados Unidos mantiene una ventaja en la IA hoy, Deepseek muestra que nuestro liderazgo no es ancho y está reduciendo”, dijo Openii.
Foto: TechCrunch/Flickr
Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido libre.
Un clic a continuación admite nuestra misión de proporcionar contenido gratuito, profundo y relevante.
Únete a nuestra comunidad en YouTube
Únase a la comunidad que incluye a más de 15,000 expertos en #Cubealumni, incluido el CEO de Amazon.com, Andy Jassy, el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger y muchos más luminarios y expertos.
“TheCube es un socio importante para la industria. Ustedes realmente son parte de nuestros eventos y realmente les apreciamos que vengan y sé que la gente aprecia el contenido que crean también ” – Andy Jassy
Google Deepmind ha introducido Gemini Robotics, nuevos modelos de IA diseñados para traer razonamiento avanzado y capacidades físicas a los robots.
Construido sobre la base de Gemini 2.0, los nuevos modelos representan un salto hacia la creación de robots que pueden entender e interactuar con el mundo físico de manera que anteriormente se limitaron al ámbito digital.
Los nuevos modelos, Robótica de Géminis y Géminis robótica (Razonamiento encarnado), tiene como objetivo permitir a los robots realizar una gama más amplia de tareas del mundo real combinando la visión avanzada, el lenguaje y las capacidades de acción.
Gemini Robotics tiene como objetivo cerrar la brecha física digital
Hasta ahora, los modelos de IA como Gemini se han destacado en el razonamiento multimodal en texto, imágenes, audio y video. Sin embargo, sus habilidades se han limitado en gran medida a las aplicaciones digitales.
Para que los modelos de IA realmente útiles en la vida cotidiana, deben poseer “razonamiento encarnado” (es decir, la capacidad de comprender y reaccionar ante el mundo físico, al igual que los humanos).
Gemini Robotics aborda este desafío al introducir acciones físicas Como una nueva modalidad de salida, permitiendo que el modelo controle directamente los robots. Mientras tanto, Gemini Robotics-ER mejora la comprensión espacial, lo que permite a los robotistas para integrar las capacidades de razonamiento del modelo en sus propios sistemas.
Estos modelos representan un paso fundamental hacia una nueva generación de robots útiles. Al combinar la IA avanzada con la acción física, Google Deepmind está desbloqueando el potencial de los robots para ayudar en una variedad de configuraciones del mundo real, desde hogares hasta lugares de trabajo.
Características clave de Géminis Robótica
Gemini Robotics está diseñado con tres cualidades centrales en mente: generalidad, interactividady destreza. Estos atributos aseguran que el modelo pueda adaptarse a diversas situaciones, responder a entornos dinámicos y realizar tareas complejas con precisión.
Generalidad
Gemini Robotics aprovecha las capacidades mundiales de Enderstanding de Gemini 2.0 para generalizar en situaciones novedosas. Esto significa que el modelo puede abordar las tareas que nunca antes había encontrado, adaptarse a nuevos objetos y operar en entornos desconocidos. Según Google Deepmind, Gemini Robotics duplica más que el rendimiento de los modelos de acción de la visión de última generación en los puntos de referencia de generalización.
Para funcionar de manera efectiva en el mundo real, los robots deben interactuar sin problemas con las personas y sus alrededores. Gemini Robotics sobresale en esta área, gracias a sus capacidades avanzadas de comprensión del idioma. El modelo puede interpretar y responder a las instrucciones del lenguaje natural, monitorear su entorno para los cambios y ajustar sus acciones en consecuencia.
Por ejemplo, si un objeto se desliza del alcance de un robot o es movido por una persona, Gemini Robotics puede replantar rápidamente y continuar la tarea. Este nivel de adaptabilidad es crucial para las aplicaciones del mundo real, donde la imprevisibilidad es la norma.
Muchas tareas cotidianas requieren habilidades motoras finas que tradicionalmente han sido desafiantes para los robots. Gemini Robotics, sin embargo, demuestra una destreza notable, lo que permite realizar tareas complejas y de varios pasos, como el origami plegable o empacar un refrigerio en una bolsa Ziploc.
Realizaciones múltiples para diversas aplicaciones
Una de las características destacadas de Gemini Robotics es su capacidad para adaptarse a diferentes tipos de robots. Si bien el modelo se capacitó principalmente utilizando datos de la plataforma robótica bi-brazo Aloha 2, también se ha probado con éxito en otras plataformas, incluidas las armas Franka utilizadas en los laboratorios académicos.
Google Deepmind también está colaborando con Apptronik para integrar la robótica de Géminis en su robot humanoide, Apollo. Esta asociación tiene como objetivo desarrollar robots capaces de completar tareas del mundo real con eficiencia y seguridad sin precedentes.
Gemini Robotics-ER es un modelo diseñado específicamente para mejorar las capacidades de razonamiento espacial. Este modelo permite a los robotistas conectar las habilidades de razonamiento avanzado de Gemini con sus controladores de bajo nivel existentes, lo que permite tareas como la detección de objetos, la percepción 3D y la manipulación precisa.
Por ejemplo, cuando se le muestra una taza de café, Gemini Robotics-ER puede determinar una comprensión de dos dedos apropiada para recogerla por el mango y planificar una trayectoria segura para abordarlo. El modelo logra una tasa de éxito 2X-3X en comparación con Gemini 2.0 en tareas de extremo a extremo, lo que lo convierte en una herramienta poderosa para los robotistas.
Priorizar la seguridad y la responsabilidad
Google Deepmind dice que la seguridad es una prioridad y posteriormente ha implementado un enfoque en capas para garantizar la seguridad física de los robots y las personas que los rodean. Esto incluye la integración de medidas de seguridad clásicas, como la evitación de colisiones y la limitación de la fuerza, con las capacidades de razonamiento avanzado de Gemini.
Para avanzar aún más en la investigación de seguridad, Google Deepmind está lanzando el conjunto de datos Asimov, un nuevo recurso para evaluar y mejorar la seguridad semántica en la IA y la robótica incorporada. El conjunto de datos está inspirado en el de Isaac Asimov Tres leyes de robótica y tiene como objetivo ayudar a los investigadores a desarrollar robots que sean más seguros y más alineados con los valores humanos.
Google Deepmind está trabajando con un grupo selecto de probadores, incluidos robots ágiles, robots de agilidad, dinámica de Boston y herramientas encantadas, para explorar las capacidades de Gemini Robotics-Er. Google dice que estas colaboraciones ayudarán a refinar los modelos y guiarán su desarrollo hacia aplicaciones del mundo real.
Al combinar el razonamiento avanzado con la acción física, Google Deepmind está allanando el camino para un futuro donde los robots pueden ayudar a los humanos en una amplia gama de tareas, desde tareas domésticas hasta aplicaciones industriales.
Ver también: La ‘bolsa de golf’ de los robots abordará entornos peligrosos
¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Echa un vistazo a AI y Big Data Expo que tendrá lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluida la Conferencia de Automatización Inteligente, Blockx, la Semana de Transformación Digital y Cyber Security & Cloud Expo.
Explore otros próximos eventos y seminarios web de tecnología empresarial alimentados por TechForge aquí.
Etiquetas: IA, inteligencia artificial, profunda, IA encarnada, robótica de Géminis, Google, modelos, robótica, robots
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.