Connect with us

Noticias

The AI Power Play: How ChatGPT, Gemini, Claude, and Others Are Shaping the Future of Artificial Intelligence

Published

on

In 2025, companies such as OpenAI, Google, Anthropic, and emerging challengers like DeepSeek have pushed the boundaries of what large language models (LLMs) can do. Moreover, corporate solutions from Microsoft and Meta are making AI tools more accessible to enterprises and developers alike. This article explores the latest AI models available to the public, their advantages and drawbacks, and how they compare in the competitive AI landscape.

The Power and Performance of AI Models

AI models rely on extensive computational resources, particularly large language models (LLMs) that require vast datasets and processing power. The leading AI models undergo complex training procedures that involve billions of parameters, consuming significant energy and infrastructure.

Key AI players invest in cutting-edge hardware and optimization strategies to improve efficiency while maintaining high performance. The balance between computational power, speed, and affordability is a significant factor in differentiating these AI models.

The Competitive Landscape: Top AI Models

OpenAI’s ChatGPT

ChatGPT, developed by OpenAI, is one of the most recognizable and widely used AI models in the world. Built with a dialogue-driven format, ChatGPT is designed to answer follow-up questions, challenge incorrect premises, admit mistakes, and reject inappropriate requests. Its versatility has made it a leading AI tool for both casual and professional use, spanning industries such as customer service, content creation, programming, and research.

ChatGPT is ideal for a wide range of users, including writers, business professionals, educators, developers, and researchers. Its free-tier accessibility makes it an excellent starting point for casual users, while businesses, content creators, and developers can leverage its advanced models for enhanced productivity and automation.

It is also among the most user-friendly AI models available, featuring a clean interface, intuitive responses, and seamless interaction across devices. However, organizations that require custom AI models or stricter data privacy controls may find its closed-source nature restrictive, particularly compared to open-source alternatives like Meta’s LLaMA.

The latest version, GPT-4o, is available for free-tier users and offers a strong balance of speed, reasoning, and text generation capabilities. For users seeking enhanced performance, ChatGPT Plus provides priority access and faster response times at a monthly subscription cost.

For professionals and businesses requiring more robust capabilities, ChatGPT Pro unlocks advanced reasoning features through the o1 pro mode, which includes enhanced voice functionality and improved performance on complex queries.

Developers looking to integrate ChatGPT into applications can access its API, a type of software interface. Pricing starts at approximately $0.15 per million input tokens and $0.60 per million output tokens for GPT-4o mini, while the more powerful o1 models come at a higher cost. A token is defined as a fundamental unit of data, like a word or subword, that an AI model processes to understand and generate text.

One of ChatGPT’s greatest strengths is its versatility and conversational memory. It can handle a broad range of tasks, from casual conversation and creative writing to technical problem-solving, coding assistance, and business automation. When memory is enabled, ChatGPT can retain context across interactions, allowing for a more personalized user experience.

Another key advantage is its proven user base—with hundreds of millions of users worldwide, ChatGPT has undergone continuous refinement based on real-world feedback, improving its accuracy and usability. Additionally, GPT-4o’s multimodal capabilities allow it to process text, images, audio, and video, making it a comprehensive AI tool for content creation, analysis, and customer engagement.

While a free version exists, the most powerful features require paid subscriptions, which may limit accessibility for smaller businesses, independent developers, and startups. Another drawback is an occasional lag in real-time updates; even though ChatGPT has web-browsing capabilities, it may struggle with the most recent or fast-changing information. Lastly, its proprietary model means users have limited control over modifications or customization, as they must adhere to OpenAI’s data policies and content restrictions.

Google’s Gemini

Google’s Gemini series is renowned for its multimodal capabilities and its ability to handle extensive context, making it a versatile tool for both personal and enterprise-level applications.

General consumers and productivity users benefit from Gemini’s deep integration with Google Search, Gmail, Docs, and Assistant, making it an excellent tool for research, email drafting, and task automation. Business and enterprise users find value in Gemini’s integration with Google Workspace, enhancing collaboration across Drive, Sheets, and Meet. Developers and AI researchers can leverage its capabilities through Google Cloud and Vertex AI, making it a strong choice for building AI applications and custom models. Creative professionals can take advantage of its multimodal abilities, working with text, images, and video. Meanwhile, students and educators benefit from Gemini’s ability to summarize, explain concepts, and assist with research, making it a powerful academic tool.

Google Gemini is highly accessible, especially for those already familiar with Google services. Its seamless integration across Google’s ecosystem allows for effortless adoption in both personal and business applications. Casual users will find it intuitive, with real-time search enhancements and natural interactions that require little to no learning curve. Developers and AI researchers can unlock advanced customization through API access and cloud-based features, though utilizing these tools effectively may require technical expertise.

The current versions, Gemini 1.5 Flash and Pro, cater to different needs, with Flash offering a cost-efficient, distilled option and Pro providing higher performance. Meanwhile, the Gemini 2.0 series, designed primarily for enterprise use, includes experimental models like Gemini 2.0 Flash with enhanced speed and multimodal live APIs, as well as the more powerful Gemini 2.0 Pro.

Basic access to Gemini is often free or available through Google Cloud’s Vertex AI. Still, advanced usage, especially when integrated into enterprise solutions, was introduced at $19.99–$25 per month per user, with pricing adjusted to reflect added features like a 1-million-token context window.

Gemini’s main advantage over other AIs is that it excels in processing text, images, audio, and video simultaneously, making it a standout in multimodal mastery. It also integrates seamlessly with Google Workspace, Gmail, and Android devices, making it a natural fit for users already in the Google ecosystem. Additionally, it offers competitive pricing for developers and enterprises needing robust capabilities, especially in extended context handling.

However, Gemini’s performance can be inconsistent, particularly with rare languages or specialized queries. Some advanced versions may be limited by safety testing, delaying wider access. Furthermore, its deep integration with Google’s ecosystem can be a barrier for users outside that environment, making adoption more challenging.

Anthropic’s Claude

Anthropic’s Claude is known for its emphasis on safety, natural conversational flow, and long-form contextual understanding. It is particularly well-suited for users who prioritize ethical AI usage and structured collaboration in their workflows.

Researchers and academics who need long-form contextual retention and minimal hallucinations, as well as writers and content creators who benefit from its structured approach and accuracy, will find Claude an essential and beneficial AI assistant. Business professionals and teams can leverage Claude’s “Projects” feature for task and document management, while educators and students will find its safety guardrails and clear responses ideal for learning support.

Because Claude is highly accessible for those seeking a structured, ethical AI with a strong contextual understanding, it is moderately suitable for creative users who may find its restrictive filters limiting and less ideal for those needing unrestricted, fast brainstorming tools or AI-generated content with minimal moderation.

Claude 3.5 Sonnet, on the other hand, is the flagship model, offering enhanced reasoning, speed, and contextual understanding for both individual and enterprise users. For businesses and teams, the Claude Team and Enterprise Plans start at approximately $25 per user per month (billed annually), providing advanced collaboration features. Individual users can access Claude Pro, a premium plan that costs around $20 per month, offering expanded capabilities and priority access. A limited free tier is also available, allowing general users to explore basic features and test its functionality.

Unlike most AIs, Claude excels in ethical AI safety, extended conversational memory, and structured project management, making it ideal for users who require reliable and well-moderated AI assistance. Its intuitive interface and organization tools enhance productivity for writers, researchers, educators, and business professionals.

However, there are instances when availability constraints during peak hours can disrupt workflow efficiency. Claude’s strict safety filters, while preventing harmful content, sometimes limit creative flexibility, making it less suitable for highly experimental or unrestricted brainstorming sessions. Additionally, enterprise costs may be high for large-scale teams with extensive AI usage.

DeepSeek AI

DeepSeek, a newcomer from China, has quickly gained attention for its cost efficiency and open-access philosophy. Unlike many established AI models, DeepSeek focuses on providing affordable AI access while maintaining strong reasoning capabilities, making it an appealing option for businesses and individual users alike. DeepSeek R1 is one of the most amazing and impressive breakthroughs I’ve ever seen—and as open source, a profound gift to the world,” said Marc Andreessen, former software engineer and co-founder of Netscape.

Being an excellent choice for cost-conscious businesses, independent developers, and researchers who need a powerful yet affordable AI solution, DeepSeek is particularly suitable for startups, academic institutions, and enterprises that require strong reasoning and problem-solving capabilities without high operational costs. It is highly accessible for individuals due to its free web-based model, and even developers and enterprises benefit from its low-cost API. However, organizations requiring politically neutral AI models or strict privacy assurances may find it less suitable, especially in industries where data security and regulatory compliance are paramount.

The latest model, DeepSeek-R1, is designed for advanced reasoning tasks and is accessible through both an API and a chat interface. An earlier version, DeepSeek-V3, serves as the architectural foundation for the current releases, offering an extended context window of up to 128,000 tokens while being optimized for efficiency.

DeepSeek is free for individual users through its web interface, making it one of the most accessible AI models available. However, for business applications, API usage comes at a significantly lower cost than U.S. competitors, making it an attractive option for enterprises looking to reduce expenses. Reports indicate that DeepSeek’s training costs are drastically lower, with estimates suggesting it was trained for approximately $6 million, a fraction of the cost compared to competitors, whose training expenses can run into the tens or hundreds of millions.

One of DeepSeek’s biggest strengths is its cost efficiency. It allows businesses and developers to access powerful AI without the financial burden associated with models like OpenAI’s GPT-4 or Anthropic’s Claude. Its open-source approach further enhances its appeal, as it provides model weights and technical documentation under open licenses, encouraging transparency and community-driven improvements.

Additionally, its strong reasoning capabilities have been benchmarked against leading AI models, with DeepSeek-R1 rivaling OpenAI’s top-tier models in specific problem-solving tasks. As Anthropic co-founder Jack Clark wrote in his “Import AI” newsletter, “R1 is significant because it broadly matches OpenAI’s o1 model on a range of reasoning tasks and challenges the notion that Western AI companies hold a significant lead over Chinese ones.”

A notable problem with DeepSeek is that its response latency, especially during periods of high demand, makes it less ideal for real-time applications where speed is crucial. Censorship and bias are also potential concerns. DeepSeek aligns with local content regulations, meaning it may sanitize or avoid politically sensitive topics, which could limit its appeal in global markets. Additionally, some users have raised privacy concerns due to its Chinese ownership, questioning whether its data policies are as stringent as those of Western AI companies that comply with strict international privacy standards.

Microsoft’s Copilot

Microsoft’s Copilot is a productivity-focused AI assistant designed to enhance workplace efficiency through seamless integration with the Microsoft 365 suite. By embedding AI-powered automation directly into tools like Word, Excel, PowerPoint, Outlook, and Teams, Copilot serves as an intelligent assistant that streamlines workflows, automates repetitive tasks, and enhances document generation.

Ideal for businesses, enterprise teams, and professionals who heavily rely on Microsoft 365 applications for their daily operations, Microsoft’s Copilot is particularly beneficial for corporate professionals, financial analysts, project managers, and administrative staff who need AI-powered assistance to enhance productivity and reduce time spent on routine tasks. However, organizations that prefer open-source AI models or require flexible, cross-platform compatibility may find Copilot less suitable, especially if they rely on non-Microsoft software ecosystems for their workflows.

Microsoft 365 Copilot is available across Microsoft’s core productivity applications, providing AI-powered assistance for document creation, email drafting, data analysis, and meeting summarization. The service costs approximately $30 per user per month and typically requires an annual subscription. However, pricing can vary based on region and enterprise agreements, with some organizations receiving customized pricing based on their licensing structure.

One of Copilot’s most significant advantages is its deep ecosystem integration within Microsoft 365. For businesses and professionals already using Microsoft Office, Copilot enhances workflows by embedding AI-driven suggestions and automation directly within familiar applications. Its task automation capabilities are another significant benefit, helping users generate reports, summarize meetings, draft emails, and analyze data more efficiently. Furthermore, Copilot receives continuous updates backed by Microsoft’s substantial investments in AI and cloud computing, ensuring regular improvements in performance, accuracy, and feature expansion.

In contrast, one of the significant drawbacks of Microsoft’s Copilot is its ecosystem lock-in—Copilot is tightly coupled with Microsoft 365, meaning its full potential is only realized by organizations already invested in Microsoft’s software ecosystem. Limited flexibility is another concern, as it lacks extensive third-party integrations found in more open AI platforms, making customization difficult for businesses that rely on a broader range of tools. Additionally, some users report occasional response inconsistencies, where Copilot may lose context in long sessions or provide overly generic responses, requiring manual refinement.

Meta AI

Meta’s suite of AI tools, built on its open-weight LLaMA models, is a versatile and research-friendly AI suite designed for both general use and specialized applications. Meta’s approach prioritizes open-source development, accessibility, and integration with its social media platforms, making it a unique player in the AI landscape. It is ideal for developers, researchers, and AI enthusiasts who want free, open-source models that they can customize and fine-tune. It is also well-suited for businesses and brands leveraging Meta’s social platforms, as its AI can enhance customer interactions and content creation within apps like Instagram and WhatsApp.

Meta AI is highly accessible for developers and researchers due to its open-source availability and flexibility. However, businesses and casual users may find it less intuitive compared to AI models with more refined user-facing tools. Additionally, companies needing strong content moderation and regulatory compliance may prefer more tightly controlled AI systems from competitors like Microsoft or Anthropic.

Meta AI operates on a range of LLaMA models, including LLaMA 2 and LLaMA 3, which serve as the foundation for various applications. Specialized versions, such as Code Llama, are tailored for coding tasks, offering developers AI-powered assistance in programming.

One of Meta AI’s standout features is its open-source licensing, which makes many of its tools free for research and commercial use. However, enterprise users may encounter service-level agreements (SLAs) or indirect costs, especially when integrating Meta’s AI with proprietary systems or platform partnerships.

Meta AI’s biggest advantage is its open-source and customizable nature, allowing developers to fine-tune models for specific use cases. This fosters greater innovation, flexibility, and transparency compared to closed AI systems. Additionally, Meta AI is embedded within popular social media platforms like Facebook, Instagram, and WhatsApp, giving it massive consumer reach and real-time interactive capabilities. Meta also provides specialized AI models, such as Code Llama, for programming and catering to niche technical applications.

Despite its powerful underlying technology, Meta AI’s user interfaces and responsiveness can sometimes feel less polished than those of competitors like OpenAI and Microsoft. Additionally, Meta has faced controversies regarding content moderation and bias, raising concerns about AI-generated misinformation and regulatory scrutiny. Another challenge is ecosystem fragmentation; with multiple AI models and branding under Meta, navigating the differences between Meta AI, LLaMA, and other offerings can be confusing for both developers and general users.

AI’s Impact on the Future of Technology

As AI adoption grows, the energy demand for training and operating these models increases. Companies are developing more efficient AI models while managing infrastructure costs. Modern AI models, particularly those known as large language models (LLMs), are powerhouses that demand vast computational resources. Training these models involves running billions of calculations across highly specialized hardware over days, weeks, or even months.

The process is analogous to running an industrial factory non-stop—a feat that requires a tremendous amount of energy. The rise of AI assistants, automation, and multimodal capabilities will further shape industries, from customer support to content creation. “The worst thing you can do is have machines wasting power by being always on,” said James Coomer, senior vice president for products at DDN, a California-based software development firm, during the 2023 AI conference ai-PULSE.

AI competition will likely drive further advancements, leading to smarter, more accessible, and environmentally conscious AI solutions. However, challenges related to cost, data privacy, and ethical considerations will continue to shape the development of AI.

Sustainable AI and the Future

AI companies are actively addressing concerns about energy consumptionand sustainability by optimizing their models to enhance efficiency while minimizing power usage. One key approach is leveraging renewable energy sources, such as solar and wind power, to supply data centers, which significantly reduces their carbon footprint. Additionally, advancements in hardware are being developed to support more energy-efficient AI computation, enabling systems to perform complex tasks with lower energy demands. These innovations not only help reduce environmental impact but also contribute to long-term cost savings for AI companies.

Beyond technological improvements, regulatory policies are being introduced to ensure AI growth aligns with environmental sustainability. Governments and industry leaders need to work together to establish guidelines that encourage responsible energy consumption while promoting research into eco-friendly AI solutions. However, the fear of governmental regulation often makes technology leaders hesitant to collaborate.

One voice at the forefront of global AI governance is Amandeep Singh Gill, the United Nations Secretary-General’s envoy on technology, who emphasizes the importance of collaborative governance in AI development—and sustainable development needs to be part of this cooperation and coordination.

“[W]e have to find ways to engage with those who are in the know,” he said in a September 2024 interview in Time. “Often, there’s a gap between technology developers and regulators, particularly when the private sector is in the lead. When it comes to diplomats and civil servants and leaders and ministers, there’s a further gap. How can you involve different stakeholders, the private sector in particular, in a way that influences action? You need to have a shared understanding.”

No matter the level of collaboration between the private and public sectors, companies need to aggressively explore emission-mitigation methods like carbon offset programs and energy-efficient algorithms to further mitigate their environmental impact. By integrating these strategies, the AI industry is making strides toward a more sustainable future without compromising innovation and progress.

Balancing Innovation and Responsibility

AI is advancing rapidly, with OpenAI, Google, Anthropic, DeepSeek, CoPilot, and MetaAI leading the way. While these models offer groundbreaking capabilities, they also come with costs, limitations, and sustainability concerns.

Businesses, researchers, and policymakers must prioritize responsible AI development while maintaining accessibility and efficiency. The Futurist: The AI (R)evolution panel discussion held by the Washington Post brought together industry leaders to explore the multifaceted impact of artificial intelligence (AI) on business, governance, and society. Martin Kon of Cohere explains that his role is securing AI for business with an emphasis on data privacy, which is essential for “critical infrastructure like banking, insurance, health care, government, energy, telco, etc.”

Because there’s no equivalent of Google Search for enterprises, AI, Kon says, is an invaluable tool in searching for needles in haystacks–but it’s complicated: “Every year, those haystacks get bigger, and every year, the needles get more valuable, but every enterprise’s haystacks are different. They’re data sources, and everyone cares about different needles.” He is, however, optimistic on the job front, maintaining that the new technology will create more jobs and greater value than many critics fear.

“Doctors, nurses, radiologists spend three and a half hours a day on admin. If you can get that done in 20 minutes, that’s three hours a day you’ve freed up of health care professionals. You’re not going to fire a third of them. They’re just going to have more time to treat patients, to train, to teach others, to sleep for the brain surgery tomorrow.”

May Habib, CEO of Writer, which builds AI models, is similarly optimistic, describing AI as “democratizing.” “All of these secret Einsteins in the company that didn’t have access to the tools to build can now build things that can be completely trajectory-changing for the business, and that’s the kind of vision that folks need to hear. And when folks hear that vision, they see a space and a part for themselves in it.”

Sy Choudhury, director of business development for AI Partnerships at Meta, sees a vital role for AI on the public sector side. “[I]t can be everything very mundane from logistics all the way to cybersecurity, all the way to your billing and making sure that you can talk to your state school when you’re applying for federal student–or student loans, that kind of thing.”

Rep. Jay Obernolte (R-CA), who led the House AI Task Force in 2024, acknowledges the need for “an institute to set standards for AI and to create testing and evaluation methodologies for AI” but emphasizes that “those standards should be non-compulsory…” And while agreeing that AI is “a very powerful tool,” he says that it’s still “just a tool,” adding that “if you concentrate on outcomes, you don’t have to worry as much about the tools…”

But some of those outcomes, he admits, can be adverse. “[O]ne example that I use a lot is the potential malicious use of AI for cyber fraud and cyber theft,” he says. “[I]n the pantheon of malicious uses of AI, that’s one of the ones that we at the task force worried the most about because we say bad actors are going to bad, and they’re going to bad more productively with AI than without AI because it’s such a powerful tool for enhancing productivity.”

Consumers can also do their part by managing AI usage wisely—turning off unused applications, optimizing workflows, and advocating for sustainable AI practices. AI’s future depends on balancing innovation with responsibility. The challenge is not just about creating smarter AI but also ensuring that its growth benefits society while minimizing its environmental impact.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La investigación profunda de Openai tiene más resistencia de investigación que tú, pero todavía está mal la mitad del tiempo

Published

on

Opadai

Lo último en inteligencia artificial generativa incluye agentes de IA que pueden acceder a la web para encontrar respuestas a las preguntas. Si bien es prometedora, la tecnología de agente es en gran medida un trabajo en progreso.

En un artículo publicado la semana pasada, los investigadores de Operai relatan cómo la tecnología de investigación profunda de la compañía, que se construyó para usar la web, funciona mucho mejor que los otros modelos de Openai al responder preguntas web. También lo hace mucho mejor que los humanos en tareas que requieren horas de búsqueda.

También: ¿Qué son los agentes de IA? Cómo acceder a un equipo de asistentes personalizados

Pero la investigación profunda todavía tropieza casi la mitad del tiempo.

La nueva prueba de OpenAI sugiere que la investigación profunda puede ser más tenaz y obstinada en la búsqueda de una respuesta que los investigadores humanos para algunas tareas, pero aún no se le ocurre una respuesta a menudo.

Llamada Browsecomp, la prueba es descrita por los autores Jason Wei y el equipo como “un punto de referencia simple pero desafiante para medir la capacidad de los agentes para navegar por la web”.

La premisa es que los agentes de IA, lo que significa, modelos de IA que pueden navegar por “miles de páginas web”, podrían ser mucho más ingeniosos que los humanos, que tienen memoria limitada, se fatigan navegando por la red y “solo pueden atender una cosa a la vez y no pueden ser paralelizadas,” significa que no pueden dirigir sus cerebros a operar en datos en transmisiones paralelos de pensamiento.

“La inteligencia de máquinas, por otro lado, tiene un retiro mucho más extenso y puede operar incansablemente sin distraerse”, escribe Wei y equipo.

También: La investigación profunda de Openai puede ahorrarle horas de trabajo, y ahora es mucho más barato acceder

Wei y el equipo se basaron en su trabajo anterior del año pasado, “Simpleq & A”, que prueba la capacidad de los modelos de IA para responder “preguntas cortas y de búsqueda de hechos”. Las preguntas cubrieron trivia de televisión y película, ciencia, historia, música, videojuegos, política y otros temas.

El conjunto de browsecomp de 1.266 preguntas está diseñado para ir más allá de la recuperación de información simple, relacionan los autores. En cambio, son preguntas para las cuales es difícil encontrar las respuestas, o, como lo expresan, “desafiantes porque requieren buscar a través de un gran espacio de posibles respuestas y igualarlas con limitaciones planteadas en la pregunta” e “información difícil de encontrar y profundamente entrelazada en la web”.

Por ejemplo, un par de preguntas y respuestas es el siguiente:

Identifique el título de una publicación de investigación publicada antes de junio de 2023, que menciona tradiciones culturales, procesos científicos e innovaciones culinarias. Es coautor de tres individuos: uno de ellos fue profesor asistente en Bengala Occidental y otro tiene un Ph.D.
(Respuesta: Los fundamentos de la fabricación de pan: la ciencia del pan)

Hacen hincapié en que tal pregunta es fácil de verificar porque la respuesta está contenida en una sola frase que es “autónoma”.

OpenAI-2025-Browsecomp-Sample-Question-Response pares

Opadai

Las preguntas y respuestas fueron desarrolladas por “entrenadores” humanos, y fueron seleccionados como imposibles de resolver con solo el chatgpt de Openai, con o sin habilidades de navegación. Las preguntas también eran imposibles para una “versión temprana” de una investigación profunda.

Demostrando cuán débiles son los humanos para buscar en la web, primero probaron a los humanos que estaban “familiarizados con el conjunto de datos” para responder las preguntas.

OpenAI-2025-Humans-Give-Up más de las preguntas

Opadai

Los resultados no fueron buenos para los humanos. Para el 70% de las preguntas, los humanos se rindieron después de dos horas de esfuerzo. Solo respondieron alrededor del 30% de las preguntas, y por el 14% de sus respuestas propuestas, las sugerencias de los humanos no coincidir con la respuesta real.

Wei y el equipo plantean la hipótesis de que los humanos con mayores habilidades de búsqueda podrían hacerlo mejor: “Es posible que muchos de los problemas que renunciaran sean solucionables por profesionales experimentados (por ejemplo, detectives o periodistas de investigación) con tiempo suficiente”.

OPERAI-2025-BROWSECOMP-ACCRACIÓN Y CALIBRACIÓN

Opadai

Después de los humanos, probaron una investigación profunda contra el GPT-4O de Openai (con y sin habilidades de navegación), GPT-4.5 y el modelo O1.

Los resultados fueron abismales. “GPT-4O y GPT-4.5 alcanzaron la precisión cercana a cero, destacando la dificultad del punto de referencia”, escriben. “Sin un razonamiento sólido o un uso de herramientas, los modelos no pueden recuperar los tipos de objetivos oscuros y múltiples hechos de navegación”.

O1 le fue mejor, lo cual “[suggests] que algunas respuestas de Browsecomps pueden aparecer a través de la inferencia sobre el conocimiento interno “.

También: AI desata estafas más avanzadas. Esto es lo que debe tener en cuenta (y cómo mantenerse protegido)

Con un puntaje del 51.5%, la investigación profunda fue “significativamente mejor” y “es particularmente efectivo para responder a las preguntas nicho y no intuitivas que requieren navegar por numerosos sitios web”, escriben Wei y Team.

Sin embargo, también encontraron que GPT-4O que usa navegación e investigación profunda podría errar al estar “demasiado confiado” sobre las respuestas incorrectas, que se conoce como un error de calibración.

“Los modelos con capacidades de navegación como GPT-4O con navegación e investigación profunda exhiben un error de calibración más alto”, escriben, “, lo que sugiere que el acceso a las herramientas web puede aumentar la confianza del modelo en respuestas incorrectas. Esto se alinea con las observaciones de que la investigación profunda lucha con la calibración de confianza y, a menudo, no puede transmitir la incertidumbre con precisión en el presente”.

Para corregir el error de calibración, hicieron otra prueba con una investigación profunda, en la que el modelo tuvo que generar hasta 64 respuestas a cada pregunta. Luego, hicieron que el modelo eligiera lo mejor de ellos. Cuando lo hizo, la investigación profunda fue bastante buena para elegir la respuesta correcta entre todas las propuestas.

OpenAI-2025-mejor de-n-scaling-accions

Opadai

Eso, escriba Wei y Team, sugiere que “el modelo con frecuencia ‘sabe’ cuando es correcto, incluso si lucha por expresar esa certeza como una probabilidad calibrada”.

También: El último chip de Google se trata de reducir un gran costo oculto en AI

También señalan que el éxito de la investigación profunda mejora con más computación agregada cuando busca la web. Dicho de otra manera, “el rendimiento escala suavemente en función de la cantidad de cómputo de tiempo de prueba utilizado”. Eso se cuadraba con una tendencia creciente de lanzar más chips de GPU a la tarea de inferencia.

escala de accesorios de accesorios operai-2025-Browsecomp

Opadai

Wei y el equipo no ofrecen directamente ninguna hipótesis sobre por qué la investigación profunda falla casi la mitad del tiempo, pero la respuesta implícita está en la escala de su capacidad con más cálculo. A medida que ejecutan tareas más paralelas y solicitan al modelo que evalúe múltiples respuestas, la precisión escala más allá del 75% de las preguntas respondidas.

La implicación es que es esencial elegir estrategias que obligen al modelo a evaluar sus propios esfuerzos en lugar de simplemente perseguir una sola respuesta. Sin esa etapa de evaluación, el modelo lucha una buena parte del tiempo.

Además: con los modelos de IA que se golpean cada punto de referencia, es hora de la evaluación humana

Un gran agujero en Browsecomps, reconocen los autores, es que se limita a preguntas que son fáciles de analizar para la computadora y cuyas respuestas son fáciles de verificar. Ninguna de las 1.266 preguntas incluyó “respuestas largas o capacidad para resolver la ambigüedad en las consultas de los usuarios”.

Como resultado, el browsecompl, argumentan, prueba las funciones “centrales” de los agentes de IA, pero no es integral. “El modelo debe ser muy competente para localizar piezas de información difíciles de encontrar, pero no está garantizado que esto se generalice a todas las tareas que requieren navegación”.

La investigación profunda está disponible para los usuarios de las suscripciones PLUS y Pro Operai.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Noticias

Informe de chatgpt para marketing

Published

on

Continue Reading

Noticias

Operai supera a Deepseek en el razonamiento a nivel de oración

Published

on

Chatgpt y otros chatbots de IA basados ​​en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.

Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.

Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.

La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.

Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.

Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.

Oración específica

La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.

En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.

Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.

Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.

Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.

https://www.youtube.com/watch?v=kqzzymhre0u

Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.

Prueba de citas y razonamiento

Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.

Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.

Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.

Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.

En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.

Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.

OpenAi tiene la ventaja

En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.

Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.

Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.

El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.

Continue Reading

Trending