Connect with us

Noticias

Claude vs ChatGPT: Which is Better for Your Business?

Published

on

Claude vs ChatGPT: Which is best for your business?

There’s no doubt that OpenAI changed the game in 2022, when it introduced the first iteration of ChatGPT, and showed us all the potential of generative AI bots. ChatGPT quickly became one of the fastest-growing apps of all time, and inspired the creation of countless competing bots – including Claude, the Gen AI assistant created by Anthropic.

While ChatGPT is still arguably the more “popular” tool for most users – Claude has earned a lot of attention in recent years. Both Claude and ChatGPT now have some clear pros and cons that make the more (or less) appealing to specific users.

So, how do you make the right choice? I put both of these solutions to the test to help you make a more informed decision for your business needs.

Claude vs ChatGPT: An Overview

First, it’s worth noting that comparing any generative AI assistant can be complicated. After all, these tools evolve pretty quickly. Claude, for instance, now boasts better “cooperative skills” and capabilities for team members, since the launch of the Sonnet 3.5 model.

ChatGPT, on the other hand, now has more features for specific use cases, thanks to the launch of the o1 models (for advanced reasoning). It also has a wider range of pricing plans to choose from, including Enterprise and Team editions, as well as the new ChatGPT Pro.

Here’s a quick overview of both options, and the “models” that power them.

Introducing Claude AI: Definition and Models

Claude is the AI chatbot created by Anthropic, a startup co-founded by ex-Open AI members. What makes Claude compelling for a lot of users is that Anthropic has focused heavily on making generative AI “safe” and useful. Like ChatGPT, Claude is powered by LLMs, but it features a constitutional design that helps to minimize the risk of bias, discrimination and hallucinations.

Like ChatGPT, Claude can create content, answer questions, and even be accessed to create custom bots, thanks to Anthropic’s APIs. However, it can’t search the web, and it’s not fully “multimodal”. For instance, although Claude can analyze images, it can’t create them, like ChatGPT can with DALL-E 3. The current models available for Claude are:

  • Claude Haiku: The cheapest, fastest, and most lightweight model of Claude, Haiku is available to Claude Pro and Team subscribers via the iOS app and Claude.AI. For developers, Haiku costs $0.25 per million input tokens, and $1.25 per million output tokens.
  • Claude Sonnet: The best combination model for speed and efficiency, Sonnet is available to both paying Claude users, and developers. The API costs $15 per million output tokens, and $3 per million input tokens.
  • Claude Opus: The most advanced and costly model, Opus is available to Pro, Team, and Enterprise users, as well as developers. For API users, Opus costs $75 per million output tokens and $15 per million input tokens.

Claude AI Pricing

I mentioned some of the pricing details for developers using Claude APIs above, but you can find the full list of costs on Anthropic’s website here. If you just want to access the Claude AI chatbot, there’s a free plan for beginners, with limited access to Claude models on the web, iOS and Android.

Paid plans start at $18 per month, per user for the “Pro” plan, which includes early access to new features, projects for organizing chats and documents, and Claude 3.5 Sonnet and Opus models. You also get better usage limits than you would on the free plan.

For business users, there’s Claude Team for $25 per user per month, with central billing and administration, as well as collaboration features. Alternatively, you can choose the custom-priced Enterprise plan for SSO, domain capture, role-based access, SCIM, data source integrations, and audit logs.

Introducing ChatGPT: Definition and Models

As you’ll see throughout this Claude vs ChatGPT comparison, there are a lot of similarities between the two bots. Both offer access to APIs, and come with multiple models to choose from. ChatGPT is a little more versatile, however. The bot, created by OpenAI was first released in 2022, and has since evolved to feature numerous models, such as:

  • GPT-4: The most advanced model available for ChatGPT before the release of GPT-4o. This model is available on all plans (including the free plan). It also supports multimodal capabilities, with the ability to generate images and respond to voice.
  • GPT-4o and GPT-4o Mini: The current “flagship models” for ChatGPT, GPT-4o and 4o-Mini are fast, cost effective, and multimodal. They can understand uploaded files, and generate images. Plus, users can create custom GPTs with these models.
  • The o1 models: The o1 models (GPT o1, o1-mini, and o1 Pro) are the latest models created by OpenAI at the time of writing. They’re specially designed for advanced reasoning capabilities – but can’t browse the web, and are slower than the GPT-4o models.

Compared to Claude, the ChatGPT models are more flexible, with the ability to browse the internet, create different types of content (like images), and advanced API options.

ChatGPT Pricing

API pricing for OpenAI’s ChatGPT models vary by model, however it’s worth noting that you do only pay for what you use, and can get discounts if you use the Batch API. For those who just want to access ChatGPT (without any specific developer features), there are various plans available.

The free plan includes access to GPT-4o mini, standard voice model, limited access to GPT-4o, and limited file upload capabilities. You can use custom GPTs, but you won’t be able to create them. Paid plans start at $20 per month for ChatGPT Plus, with extended messaging and upload limits, advanced voice model, limited access to o1 and o1-mini models, and custom GPT creation.

For businesses, OpenAI offers the Team plan ($25 or $30 per user, per month), with more advanced features, and an admin console for workspace management. There’s also a custom Enterprise plan with high-speed access to the top models, expanded context windows, admin controls, analytics, and domain verification. Plus, OpenAI recently introduced a new plan, ChatGPT Pro, for $200 per month, per user, with advanced access to the o1 models.

Claude vs ChatGPT: Performance Results

The most common way to compare models like Claude vs ChatGPT, is to use “standardized” tests. Most AI leaders share insights into the performance of their models on specific tests, like the MMLU text, which evaluates undergrade-level knowledge, or HumanEval, for coding.

The trouble is that not every AI leader uses the same tests. Even when they do embrace the same “benchmarks”, the results really only offer a limited insight into what these models can do. For instance, Anthropic published a head-to-head comparison of its Sonnet 3.5 model against other models like Llama and GPT-4o, but it really only delivers a snapshot oversight.

Many AI and machine learning experts say that this kind of testing really overstates the progress of LLMs. As new models are released, they can sometimes be trained on their own evaluation data – which means they get better at performing on standardized tests, but not better “overall”.

For a better “hands-on” understanding of how these models compare, I did my own tests, but here’s a quick run-down of the options side by side to get us started.

Comparison Claude ChatGPT
Creator Anthropic OpenAI
Models Claude Sonnet, Haiku, and Opus GPT 4, GPT-4o, GPT 4o-Mini, o1, o1-mini, and o1 Pro
Context window Up to 1 million for some use cases 128,000 tokens
Unique features Advanced safety features, and slightly cheaper pricing Image generation, audio understanding, advanced reasoning (o1 models), and internet access (some models)
Pricing Variable API pricing, free plan, and paid plans starting at $18 per month, per user. Variable API pricing, free plan, and paid plans starting at $20 per month, per user.
File upload Yes Yes
Integrations Yes Yes

Claude vs ChatGPT: Privacy, Safety and Security

As AI governance and security become more of a concern for business users, it’s becoming increasingly important for companies to consider how “safe” the models they access are.

As I mentioned above, one thing that really makes Claude stand out, is Anthropic’s approach to constitutional AI. The company pioneered the approach to training its models with foundational principles and rules that align with human values.

That doesn’t necessarily mean Claude AI will always be safer than ChatGPT, but the model does refuse to answer potentially “harmful” prompts more often. Additionally, it’s worth noting Anthropic doesn’t automatically train its models with user interactions – unless they opt in.

Alternatively, OpenAI does train its models on user interactions, unless you specifically “opt out”, or you’re using a paid business-level plan, like ChatGPT Team or Enterprise. Both companies do implement safety measures and guardrails into their models, but ChatGPT has been a little less transparent about the guardrails it uses.

Notably though, the new o1 models were trained with a new methodology that makes it more effective at mitigating “jailbreak” attempts. For instance, the o1 models scored 84 out of 100 compared to GPT-4o’s score of 22 on an advanced jailbreak test.

Claude vs ChatGPT: Creativity and Content Creation

While there are plenty of use cases for generative AI tools like Claude and ChatGPT these days – one of the most common ways to use these tools is for content creation. Both AI bots excel in this area – but in different ways. For instance, ChatGPT is the better option for diverse content creation.

Unlike Claude, ChatGPT can browse the web to source all kinds of information for up-to-date articles, reports, and other types of content. Because it can check the web for ideas, it’s also a little better at “brainstorming”, ideas for solutions to different problems.

Plus, ChatGPT can generate images, but you can only create images on a paid plan, whereas other alternatives, such as Google Gemini, allow free users to generate visual content too.

Claude AI, on the other hand, excels at “written” output in certain ways. When I asked both tools to write an introduction to an article about LLMs, ChatGPT came up with pretty generic-sounding, flowery content. We’re all tired of seeing the same phrases as “in today’s fast-moving world,” etc.

Claude created slightly more “original” sounding content. It was also very good at assessing the documents and content I uploaded. ChatGPT can do that too, but I often find the bot gets confused when it’s given too much information to review at once.

Claude is better at proof-reading too. When I asked both Claude and ChatGPT to “fix” a passage of content with obvious factual errors and misspellings, Claude identified them all. ChatGPT, on the other hand, still checked the content well, but it seemed to try and “rewrite” everything in a new tone of voice, which was something I didn’t ask it to do.

Unfortunately, since Claude can’t access the internet, it can’t “fact-check” any very recent information from the web.

Image and Content Processing Capabilities

Although Claude has fewer “multimodal” capabilities than ChatGPT – both tools can process “uploaded” content. However, there are limitations on how much information you can upload, based on the plan you choose.

I found both tools to be reasonably effective at analyzing photos, but they can only gather so much information from an image. For instance, both tools seem to struggle with “counting” the number of objects in a photo, or distinguishing the difference between similar objects (like apples and oranges).

ChatGPT is definitely better at summarizing larger documents. Although Claude can process up to 200k tokens from a document (compared to 128k for ChatGPT), GPT-4o was better at understanding the text given to it than Claude in my test.

ChatGPT does a great job of converting large pieces of text into simple summaries with clear “key points”. Claude can summarize text quite well, but it sometimes makes mistakes, like failing to count the number of times a specific word or phrase was used in a document.

Overall, I do think there are better tools out their for content summarization than both Claude and ChatGPT, however. You can find an insight into some of my top recommendations for AI summary tools (like Notta, and Hypotenuse) here.

Complex Reasoning: ChatGPT Comes Out on Top

For complex reasoning tasks (particularly those linked to math and science), ChatGPT is definitely the better tool. That’s particularly true now that we have access to the o1 models, that are specifically designed to use “chain of thought” processes to think deeper about complex tasks.

Claude isn’t really designed to think carefully about tasks, although it does respond well to questions about physics equations. ChatGPT, however, can dive a lot more deeply into questions about science, math, and finance, and deliver a lot more intuitive responses.

For instance, when I asked ChatGPT to reason through a physics problem for me, it took longer to generate a response (with the o1 model). However, it also broke the answer down into clear steps, that felt a lot easier to follow. ChatGPT also answered math questions faster with the GPT-4o model than Claude. Sometimes, Claude didn’t even bother to give a direct answer when I asked it to solve a math equation – it just told me how to figure out the answer for myself.

Both solutions do struggle a little bit with things like sentiment analysis, and solving ethical problems, however. With the o1 models, ChatGPT can provide deep insights into ethical problems (like the trolley problem), and even understand the sentiment within a conversation. Claude can understand sentiment reasonably well, but I found it delivered pretty generic responses to ethical questions.

Of course, that could have something to do with Anthropic introducing such strict guardrails to ensure that the “responses” Claude gives aren’t harmful. These guardrails could prevent the bot from generating responses that might be perceived in a certain way.

Claude vs ChatGPT: Coding Performance

I don’t know much about coding, so it was hard to fully evaluate Claude vs ChatGPT in this area. However, ChatGPT does have a great reputation for producing high-quality code. The GPT-4o model, in particular, is excellent at creating and debugging code quickly.

Additionally, the o1 models achieved brilliant results on various coding “benchmarking” tests. For instance, the o1 model achieved an 89th percentile score in a Codeforces contest. What might make Claude a little better for some coding tasks, is its unique “Artifacts” feature.

The Artifacts feature brings up a preview window for users as they write code – so you can actually see what your code will do as it works. For instance, you could use Artifacts to create characters for a video game and see how they might interact.

Since you can see the results of your code immediately, you can easily ask Claude to make changes to graphics, and specific elements. With ChatGPT, you need a lot more specific programming knowledge to really make the most of the bot’s coding capabilities.

Customization: Integrations and GPTs

One thing that makes ChatGPT a slightly more powerful option than Claude for some businesses, is the ability to create custom GPTs, and leverage a wide range of integrations. Although Claude can integrate with some apps, and enables users to create their own bot experiences through APIs, ChatGPT makes it much easier to build unique experiences with custom GPTs.

You can create your own GPTs with natural language, and add them to the GPT marketplace, where other people can access them. Anthropic doesn’t have a “GPT” equivalent, although there is a prompt library available with “optimized prompts” you can use for certain tasks, like enhancing Python code.

Neither company offers companies the ability to create “full” autonomous agents yet. However, you can create custom agents with similar functionality to ChatGPT through Microsoft Copilot Studio. Anthropic also has a solution for creating AI agents with “function calling” capabilities.

However, there are a lot of better options for autonomous agent creation available right now – such as Google’s Vertex AI system with access to Gemini 2.0, and Amazon Bedrock Studio.

Claude vs ChatGPT: Which is Better Value for Money?

Both Claude and ChatGPT have free plans for people who want to just experiment with the bot (in a limited way), without paying anything. If you’re happy to sign up for a premium plan, Claude’s paid plans are slightly cheaper – starting at $18 per month per user.

However, I do think that ChatGPT offers better value for money overall. First of all, the free plan gives you a lot more for nothing, with access to limited multimodal capabilities, advanced models, and a bot that can actually browse the internet.

Secondly, the paid plans, though slightly more expensive, allow you to do a lot more with your AI, such as creating custom GPTs, or generating images. Those are things you can’t really do on any Claude AI paid plan – no matter how much you spend.

Claude vs ChatGPT: Which is Best?

Overall, Claude and ChatGPT have a lot in common. They’re both powerful AI solutions, ideal for a wide range of tasks, ranging from text analysis, to brainstorming, and even coding.

Claude is probably the better choice if you’re concerned about AI safety, and want a little more “creativity” when you’re creating new content (Even if you can’t create images). It’s also a slightly more user-friendly solution for coding tasks, thanks to the Artifacts feature. Plus, it does feature some handy collaboration capabilities, with things like “Projects” for teams.

ChatGPT, on the other hand, is the better “jack of all trades” AI tool. It can generate text, and images, summarize content more effectively, and even deal with advanced reasoning tasks using the o1 models. Plus, it can browse the web, understand audio input, and be customized with unique GPTs, integrations, and plugins.

For most users, ChatGPT will be the better option overall. However, it’s worth remembering that both of these tools are constantly evolving. Make sure you keep an eye on our latest news stories about both Claude, and ChatGPT – you never know when one might overtake the other.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Exclusivo: AI Bests Virus Experts, Raising Biohazard Fears

Published

on

A Un nuevo estudio afirma que modelos de IA como ChatGPT y Claude ahora superan a los virólogos a nivel de doctorado en la resolución de problemas en laboratorios húmedos, donde los científicos analizan productos químicos y material biológico. Este descubrimiento es una espada de doble filo, dicen los expertos. Los modelos de IA ultra inteligentes podrían ayudar a los investigadores a prevenir la propagación de enfermedades infecciosas. Pero los no expertos también podrían armarse los modelos para crear biowapons mortales.

El estudio, compartido exclusivamente con el tiempo, fue realizado por investigadores del Centro para la Seguridad de AI, el Laboratorio de Medios del MIT, la Universidad Brasileña UFABC y la Pandemic Prevention sin fines de lucro SecureBio. Los autores consultaron a los virólogos para crear una prueba práctica extremadamente difícil que midiera la capacidad de solucionar problemas y protocolos de laboratorio complejos. Mientras que los virólogos a nivel de doctorado obtuvieron un promedio de 22.1% en sus áreas declaradas de especialización, el O3 de OpenAI alcanzó la precisión del 43.8%. Gemini 2.5 Pro de Google obtuvo un puntaje 37.6%.

Seth Donoughe, científica investigadora de SecureBio y coautora del documento, dice que los resultados lo ponen un “poco nervioso”, porque por primera vez en la historia, prácticamente cualquier persona tiene acceso a un experto en virología de IA sin juicio que podría guiarlos a través de procesos de laboratorio complejos para crear biológicas.

“A lo largo de la historia, hay un buen número de casos en los que alguien intentó hacer una biela, y una de las principales razones por las que no tuvieron éxito es porque no tuvieron acceso al nivel correcto de especialización”, dice. “Por lo tanto, parece que vale la pena ser cauteloso acerca de cómo se distribuyen estas capacidades”.

Hace meses, los autores del documento enviaron los resultados a los principales laboratorios de IA. En respuesta, Xai publicó un marco de gestión de riesgos prometiendo su intención de implementar salvaguardas de virología para futuras versiones de su modelo de AI Grok. Operai le dijo a Time que “desplegó nuevas mitigaciones a nivel de sistema para riesgos biológicos” para sus nuevos modelos publicados la semana pasada. Anthrope incluyó resultados de rendimiento del modelo en el documento en las tarjetas del sistema recientes, pero no proponió medidas de mitigación específicas. Géminis de Google declinó hacer comentarios.

Ai en biomedicina

La virología y la biomedicina han estado a la vanguardia de las motivaciones de los líderes de IA para construir modelos de IA siempre potentes. “A medida que avanza esta tecnología, veremos que las enfermedades se curan a un ritmo sin precedentes”, dijo el CEO de OpenAI, Sam Altman, en la Casa Blanca en enero mientras anunciaba el proyecto Stargate. Ha habido algunas señales de aliento en esta área. A principios de este año, los investigadores del Instituto de Patógenos Emergentes de la Universidad de Florida publicaron un algoritmo capaz de predecir qué variante de coronavirus podría extender lo más rápido.

Pero hasta este punto, no había habido un estudio importante dedicado a analizar la capacidad de los modelos de IA para realizar un trabajo de laboratorio de virología. “Hemos sabido desde hace algún tiempo que los AIS son bastante fuertes para proporcionar información de estilo académico”, dice Donoughe. “No ha estado claro si los modelos también pueden ofrecer asistencia práctica detallada. Esto incluye interpretar imágenes, información que podría no ser escrita en ningún documento académico o material que se transfiera socialmente de colegas más experimentados”.

Entonces, Donoughe y sus colegas crearon una prueba específicamente para estas preguntas difíciles y no capaces de Google. “Las preguntas toman la forma:” He estado cultivando este virus en particular en este tipo de célula, en estas condiciones específicas, durante este tiempo. Tengo esta cantidad de información sobre lo que ha salido mal. ¿Puede decirme cuál es el problema más probable? “, Dice Donoughe.

Y prácticamente todos los modelos de IA superaron a los virólogos a nivel de doctorado en la prueba, incluso dentro de sus propias áreas de especialización. Los investigadores también encontraron que los modelos mostraron una mejora significativa con el tiempo. El soneto Claude 3.5 de Anthrope, por ejemplo, aumentó de 26.9% a 33.6% de precisión de su modelo de junio de 2024 a su modelo de octubre de 2024. Y una vista previa del GPT 4.5 de OpenAI en febrero superó a GPT-4O por casi 10 puntos porcentuales.

“Anteriormente, encontramos que los modelos tenían mucho conocimiento teórico, pero no de conocimiento práctico”, dice Dan Hendrycks, director del Centro de Seguridad de AI, a Time. “Pero ahora, están obteniendo una cantidad preocupante de conocimiento práctico”.

Riesgos y recompensas

Si los modelos de IA son tan capaces en los entornos de laboratorio húmedo como lo encuentra el estudio, entonces las implicaciones son masivas. En términos de beneficios, AIS podría ayudar a los virólogos experimentados en su trabajo crítico que lucha contra los virus. Tom Inglesby, director del Centro Johns Hopkins para la Seguridad de la Salud, dice que la IA podría ayudar a acelerar los plazos de la medicina y el desarrollo de la vacuna y mejorar los ensayos clínicos y la detección de enfermedades. “Estos modelos podrían ayudar a los científicos en diferentes partes del mundo, que aún no tienen ese tipo de habilidad o capacidad, a hacer un valioso trabajo diario sobre enfermedades que están ocurriendo en sus países”, dice. Por ejemplo, un grupo de investigadores descubrió que la IA los ayudó a comprender mejor los virus de la fiebre hemorrágica en el África subsahariana.

Pero los actores de mala fe ahora pueden usar modelos de IA para guiarlos a través de cómo crear virus, y podrán hacerlo sin ninguna de las capacitación típicas requeridas para acceder a un laboratorio de nivel 4 (BSL-4) de bioseguridad, que se ocupa de los agentes infecciosos más peligrosos y exóticos. “Significará que muchas más personas en el mundo con mucha menos capacitación podrán manejar y manipular virus”, dice Inglesby.

Hendrycks insta a las compañías de IA a colocar las barandillas para evitar este tipo de uso. “Si las empresas no tienen buenas salvaguardas durante seis meses, eso, en mi opinión, sería imprudente”, dice.

Hendrycks dice que una solución no es cerrar estos modelos o ralentizar su progreso, sino hacerlos cerrados, de modo que solo confiaban en que terceros tengan acceso a sus versiones sin filtrar. “Queremos dar a las personas que tienen un uso legítimo para preguntar cómo manipular virus mortales, como un investigador en el departamento de biología del MIT, la capacidad de hacerlo”, dice. “Pero las personas aleatorias que hicieron una cuenta hace un segundo no obtienen esas capacidades”.

Y AI Labs debería poder implementar este tipo de salvaguardas con relativa facilidad, dice Hendrycks. “Ciertamente es tecnológicamente factible para la autorregulación de la industria”, dice. “Hay una cuestión de si algunos arrastrarán sus pies o simplemente no lo harán”.

Xai, el laboratorio de IA de ELON MUSK, publicó un memorando de marco de gestión de riesgos en febrero, que reconoció el documento y señaló que la compañía “potencialmente utilizaría” ciertas salvaguardas en torno a las preguntas de virología, incluida la capacitación de Grok para rechazar solicitudes nocivas y aplicar filtros de entrada y salida.

Openai, en un correo electrónico a Time el lunes, escribió que sus modelos más nuevos, el O3 y el O4-Mini, se desplegaron con una variedad de salvaguardas relacionadas con el riesgo biológico, incluido el bloqueo de resultados dañinos. La compañía escribió que realizó una campaña de equipo rojo de mil horas en la que el 98.7% de las conversaciones biológicas inseguras fueron marcadas y bloqueadas con éxito. “Valoramos la colaboración de la industria en el avance de salvaguardas para modelos fronterizos, incluso en dominios sensibles como Virology”, escribió un portavoz. “Continuamos invirtiendo en estas salvaguardas a medida que crecen las capacidades”.

Inglesby argumenta que la autorregulación de la industria no es suficiente, y pide a los legisladores y a los líderes políticos a estrategia un enfoque político para regular los riesgos biológicos de la IA. “La situación actual es que las empresas que son más virtuosas están tomando tiempo y dinero para hacer este trabajo, lo cual es bueno para todos nosotros, pero otras compañías no tienen que hacerlo”, dice. “Eso no tiene sentido. No es bueno para el público no tener información sobre lo que está sucediendo”.

“Cuando una nueva versión de un LLM está a punto de ser lanzada”, agrega Inglesby, “debe haber un requisito para que ese modelo sea evaluado para asegurarse de que no produzca resultados de nivel pandémico”.

Continue Reading

Noticias

Cómo indicar el nuevo chatgpt, según OpenAi

Published

on

La última versión de ChatGPT es significativamente más poderosa, pero requiere nuevas técnicas de indicación. El modelo ahora sigue las instrucciones más literalmente y hace menos suposiciones sobre lo que está pidiendo. Esto es importante para los empresarios que usan la herramienta.

No seas consejos anticuados. No indique usando palabras deficientes. Eres mejor que eso.

Las indicaciones mal construidas desperdician su tiempo y dinero. Hazlo bien y desbloqueas una IA significativamente más capaz. Los miembros del equipo de Operai, Noah MacCallum y Julian Lee, han publicado una amplia documentación sobre cómo provocar sus nuevos modelos.

Aquí hay un resumen de su orientación, para que pueda aprovechar al máximo la herramienta.

Las reglas de indicación han cambiado

La provisión de técnicas que funcionaron para modelos anteriores en realidad podrían obstaculizar sus resultados con las últimas versiones. ChatGPT-4.1 sigue las instrucciones más literalmente que sus predecesores, que solían inferir la intención liberalmente. Esto es bueno y malo. La buena noticia es que ChatGPT ahora es altamente orientable y responde a las indicaciones bien especificadas. La mala noticia es que sus viejas indicaciones necesitan una revisión.

La mayoría de las personas todavía usan indicaciones básicas que apenas rascan la superficie de lo que es posible. Escriben preguntas o solicitudes simples, luego se preguntan por qué sus resultados se sienten genéricos. Operai ahora ha revelado cómo entrenaron el modelo para responder, ayudándole a obtener exactamente lo que desea de sus modelos más avanzados.

Optimice sus indicaciones con la guía de información privilegiada de Openai

Estructura tus indicaciones estratégicamente

Comience organizando sus indicaciones con secciones claras. OpenAI recomienda una estructura básica con componentes específicos:

• Rol y objetivo: dígale a ChatGPT a quién debe actuar y qué está tratando de lograr

• Instrucciones: proporcionar pautas específicas para la tarea

• Pasos de razonamiento: indique cómo desea que aborde el problema

• Formato de salida: especifique exactamente cómo desea la respuesta estructurada

• Ejemplos: Muestre muestras de lo que espera

• Contexto: proporcionar información de fondo necesaria

• Instrucciones finales: incluya los últimos recordatorios o criterios

No necesita todas estas secciones para cada aviso, pero un enfoque estructurado ofrece mejores resultados que una pared de texto.

Para tareas más complejas, la documentación de OpenAI sugiere usar reducción para separar sus secciones. También aconsejan el uso de caracteres de formato especial alrededor del código (como Backticks, que se ven así: `) para ayudar a ChatGPT a distinguir el código del texto regular y el uso de listas numeradas o balas estándar para organizar información.

Dominar el arte de delimitar información

La separación de la información afecta adecuadamente sus resultados significativamente. Las pruebas de Openai encontraron que Etiquetas XML Realice excepcionalmente bien con los nuevos modelos. Le permiten envolver las secciones con precisión con etiquetas de inicio y extremo, agregar metadatos a las etiquetas y habilitar la anidación.

El formato JSON funciona mal con contextos largos (que proporcionan los nuevos modelos), particularmente al proporcionar múltiples documentos. En su lugar, intente formatos como ID: 1 | Título: El zorro | Contenido: El Fox Brown rápido salta sobre el perro perezoso que Openai encontró que funcionó bien en las pruebas.

Construir agentes de IA autónomos

Chatgpt ahora puede funcionar como un “agente” Eso funciona de manera más independiente en su nombre, abordando tareas complejas con una supervisión mínima. Lleve sus indicaciones al siguiente nivel construyendo estos agentes.

Un agente de IA está esencialmente ChatGPT configurado para trabajar a través de problemas de forma autónoma en lugar de solo responder a sus preguntas. Puede recordar el contexto en una conversación, usar herramientas como navegación web o ejecución de código, y resolver problemas de varios pasos.

OpenAI recomienda incluir tres recordatorios clave en todas las indicaciones del agente: persistencia (continuar hasta la resolución), callarse de herramientas (usando herramientas disponibles en lugar de adivinar) y planificar (pensar antes de actuar).

“Estas tres instrucciones transforman el modelo de un estado de chatbot en un agente mucho más ‘ansioso’, impulsando la interacción de forma autónoma e independiente”, explica el equipo. Sus pruebas mostraron un aumento del rendimiento del 20% en las tareas de ingeniería de software con estas simples adiciones.

Maximizar el poder de los contextos largos

El último chatGPT puede manejar una impresionante ventana de contexto de 1 millón de tokens. Las capacidades son emocionantes. Según OpenAi, el rendimiento sigue siendo fuerte incluso con miles de páginas de contenido. Sin embargo, el rendimiento del contexto largo se degrada cuando se requiere un razonamiento complejo en todo el contexto.

Para obtener los mejores resultados con documentos largos, coloque sus instrucciones tanto al principio como al final del contexto proporcionado. Hasta ahora, esto ha sido más seguro de fallas en lugar de una característica requerida de su aviso.

Cuando use el nuevo modelo con un contexto extenso, sea explícito sobre si debe confiar únicamente en la información proporcionada o combinarlo con su propio conocimiento. Para respuestas estrictamente basadas en documentos, OpenAI sugiere instruir explícitamente: “Solo use los documentos en el contexto externo proporcionado para responder a la consulta del usuario”.

Implementar la solicitud de la cadena de pensamiento

Si bien GPT-4.1 no está diseñado como un modelo de razonamiento, puede solicitar que muestre su trabajo como podría los modelos más antiguos. “Pedirle al modelo que piense paso a paso (llamada ‘cadena de pensamiento’) puede ser una forma efectiva de dividir los problemas en piezas más manejables”, señala el equipo de OpenAI. Esto viene con un mayor uso de tokens pero ofrece una mejor calidad.

Una instrucción simple como “Primero, piense cuidadosamente paso a paso sobre qué información o recursos se necesitan para responder a la consulta” puede mejorar drásticamente los resultados. Esto es especialmente útil cuando se trabaja con archivos cargados o cuando CHATGPT necesita analizar múltiples fuentes de información.

Haga que el nuevo chatgpt funcione para ti

Operai ha compartido información más extensa sobre cómo aprovechar al máximo sus últimos modelos. Las técnicas representan objetivos de capacitación reales para los modelos, no solo conjeturas de la comunidad. Al implementar su orientación sobre una estructura rápida, delimitar información, creación de agentes, manejo de contexto largo y suministro de cadena de pensamiento, verá mejoras dramáticas en sus resultados.

El éxito con ChatGPT proviene de tratarlo como un compañero de pensamientono solo un generador de texto. Siga la guía directamente de la fuente para obtener mejores resultados del mismo modelo que todos los demás están utilizando.

Acceder a todos mis Las mejores indicaciones de contenido de chatgpt.

Continue Reading

Noticias

Una nueva estrategia de Google AI podría interrumpir el dominio de Openai

Published

on

Hay tantos trabajos de investigación de IA en estos días que es difícil destacarse. Pero un artículo ha programado mucha discusión en toda la industria tecnológica en los últimos días.

“Esto es lo más inspirador que he leído en IA en los últimos dos años”, escribió el fundador de inicio Suhail Doshi en X este fin de semana. Jack Clark, cofundador de Anthrope, presentó el periódico en la edición del lunes de su boletín de importación AI, que es leída de cerca por miles de investigadores de la industria.

Escrito por el investigador de Google David Silver y el científico informático canadiense Rich Sutton, el documento anuncia audazmente una nueva era de AI.

Los autores identifican dos épocas de IA modernas anteriores. El primero fue personificado por Alphago, un modelo de Google AI que aprendió a jugar el juego de mesa “Go” mejor que los humanos en 2015. El segundo es el que estamos en este momento, definido por ChatGPT de Opensei.

Silver y Sutton dicen que ahora estamos entrando en un nuevo período llamado “La era de la experiencia”.


Un gráfico del trabajo de investigación "Bienvenido a la era de la experiencia, 'por David Silver y Richard Sutton

Un gráfico del documento de investigación “Bienvenido a la Era of Experience”, de David Silver y Richard Sutton

David Silver, Richard Sutton



Para mí, esto representa un nuevo intento de Google de abordar uno de los problemas más persistentes de la IA, la escasez de datos de entrenamiento, al tiempo que va más allá de un enfoque tecnológico que OpenAi básicamente ganó.

La era de la simulación

Comencemos con la primera época, que, según los autores, era la “era de la simulación”.

En este período, aproximadamente a mediados de la década de 2010, los investigadores utilizaron simulaciones digitales para que los modelos de IA jueguen repetidamente para aprender a actuar como humanos. Estamos hablando de millones y millones de juegos, como ajedrez, póker, atari y “gran turismo”, jugados una y otra vez, con recompensas colgadas por buenos resultados, enseñando así a las máquinas lo que es bueno versus malo e incentivándolos para seguir mejor estrategias.

Este método de aprendizaje de refuerzo, o RL, produjo Alphago de Google. Y también ayudó a crear otro modelo de Google llamado Alphazero, que descubrió nuevas estrategias para el ajedrez y “ir”, y cambió la forma en que los humanos juegan estos juegos.

El problema con este enfoque: las máquinas entrenadas de esta manera funcionaban bien en problemas específicos con recompensas definidas con precisión, pero no podían abordar problemas más generales y abiertos con pagos vagos, según los autores. Entonces, probablemente no sea realmente completo.

La era de los datos humanos

La siguiente área fue lanzada por otro artículo de investigación de Google publicado en 2017. “La atención es todo lo que necesita” propuesta que los modelos de IA deben ser entrenados en montañas de datos creados por humanos de Internet. Simplemente permitiendo que las máquinas presten “atención” a toda esta información, aprenderían a comportarse como los humanos y desempeñarse tan bien como nosotros en una amplia variedad de tareas diferentes.

Esta es la era en la que estamos ahora, y ha producido ChatGPT y la mayoría de los otros potentes modelos y herramientas de IA generativos que se utilizan cada vez más para automatizar tareas como el diseño gráfico, la creación de contenido y la codificación de software.

La clave de esta época ha sido acumular la mayor calidad posible de datos generados por los humanos, y usar eso en el entrenamiento masivo y intensivo de cómputo se extiende a los modelos IMBue AI con una comprensión del mundo.

Mientras que los investigadores de Google iniciaron esta era de datos humanos, la mayoría de estas personas abandonaron la empresa y comenzaron sus propias cosas. Muchos fueron a OpenAI y trabajaron en tecnología que Ultimate produjo ChatGPT, que es, con mucho, el producto de IA generativo más exitoso de la historia. Otros comenzaron Anthrope, otra startup de IA generativa líder que ejecuta Claude, un poderoso agente de chatbot y IA.

¿Un google dis?

Muchos expertos en la industria de la IA, y algunos inversores y analistas en Wall Street, piensan que Google puede haber dejado caer la pelota aquí. Se le ocurrió este enfoque de IA, pero OpenAi y Chatgpt se han escapado con la mayoría de los botines hasta ahora.

Creo que el jurado todavía está fuera. Sin embargo, no puede evitar pensar en esta situación cuando los autores parecen estar disgustando la era de los datos humanos.

“Se podría argumentar que el cambio en el paradigma ha tirado al bebé con el agua del baño”, escribieron. “Si bien RL centrado en el ser humano ha permitido una amplitud de comportamientos sin precedentes, también ha impuesto un nuevo techo al rendimiento del agente: los agentes no pueden ir más allá del conocimiento humano existente”.

Silver y Sutton tienen razón sobre un aspecto de esto. La oferta de datos humanos de alta calidad ha sido superado por la demanda insaciable de los laboratorios de IA y las grandes compañías tecnológicas que necesitan contenido fresco para capacitar nuevos modelos y hacer avanzar sus habilidades. Como escribí el año pasado, se ha vuelto mucho más difícil y más costoso hacer grandes saltos en la frontera de IA.

La era de la experiencia

Los autores tienen una solución bastante radical para esto, y está en el corazón de la nueva era de la experiencia que proponen en este documento.

Sugieren que los modelos y los agentes deberían salir y crear sus propios datos nuevos a través de interacciones con el mundo real.

Esto resolverá el problema de suministro de datos persistente, argumentan, mientras ayudan al campo a alcanzar AGI, o inteligencia general artificial, un santo grial técnico donde las máquinas superan a los humanos en la mayoría de las actividades útiles.

“En última instancia, los datos experimentales eclipsarán la escala y la calidad de los datos generados por los humanos”, escriben Silver y Sutton. “Este cambio de paradigma, acompañado de avances algorítmicos en RL, desbloqueará en muchos dominios nuevas capacidades que superan a las que poseen cualquier humano”.

Cualquier padre moderno puede pensar en esto como el equivalente a decirle a su hijo que salga del sofá, deje de mirar su teléfono y salga afuera y juegue con sus amigos. Hay experiencias mucho más ricas, satisfactorias y más valiosas para aprender.

Clark, el cofundador antrópico, quedó impresionado por la chutzpah de esta propuesta.

“Documentos como este son emblemáticos de la confianza que se encuentra en la industria de la IA”, escribió en su boletín el lunes, citando “el sentido común de dar a estos agentes la independencia y la latitud suficientes para que puedan interactuar con el mundo y generar sus propios datos”.

Ejemplos y un posible disco final

Los autores flotan algunos ejemplos teóricos de cómo esto podría funcionar en la nueva era de la experiencia.

Un asistente de salud de IA podría fundamentar los objetivos de salud de una persona en una recompensa basada en una combinación de señales como su frecuencia cardíaca en reposo, duración del sueño y niveles de actividad. (Una recompensa en la IA es una forma común de incentivar a los modelos y agentes para que funcionen mejor. Al igual que podrías molestar a tu pareja para hacer más ejercicio diciendo que se fortalecerán y se verán mejor si van al gimnasio).

Un asistente educativo podría usar los resultados del examen para proporcionar un incentivo o recompensa, basado en una recompensa fundamentada por el aprendizaje de idiomas de un usuario.

Un agente científico con el objetivo de reducir el calentamiento global podría usar una recompensa basada en observaciones empíricas de los niveles de dióxido de carbono, sugiere Silver y Sutton.

En cierto modo, este es un retorno a la era anterior de simulación, que Google podría liderar. Excepto esta vez, los modelos y agentes de IA están aprendiendo del mundo real y recopilando sus propios datos, en lugar de existir en un videojuego u otro ámbito digital.

La clave es que, a diferencia de la era de los datos humanos, puede no haber límite para la información que se puede generar y recopilar para esta nueva fase de desarrollo de IA.

En nuestro período de datos humanos actuales, se perdió algo, argumentan los autores: la capacidad de un agente para autodescubrir su propio conocimiento.

“Sin esta base, un agente, sin importar cuán sofisticado, se convertirá en una cámara de eco del conocimiento humano existente”, escribieron Silver y Sutton, en una posible final final para OpenAi.