Noticias
OpenAI unveils its most advanced o3 reasoning model on its last day of ‘shipmas’
Published
5 meses agoon

With the holiday season upon us, many companies are finding ways to take advantage through deals, promotions, or other campaigns. OpenAI has found a way to participate with its “12 days of OpenAI” event series.
OpenAI announced via an X post that starting on Dec. 5, the company would host 12 days of live streams and release “a bunch of new things, big and small,” according to the post. The company saved the best for last, sharing its biggest annoouncemnt on Friday, Dec. 20, the last day of the series.
Also: I’m a ChatGPT power user – here’s why Canvas is its best productivity feature
Here’s everything you need to know about the campaign, as well as a round-up of every day’s drops.
What are the ’12 days of OpenAI’?
OpenAI CEO Sam Altman shared more details about the event, which kicked off at 10 a.m. PT on Dec. 5 and occurred daily for 12 weekdays with a live stream featuring a launch or demo. The launches included both “big ones” or “stocking stuffers,” according to Altman.
starting tomorrow at 10 am pacific, we are doing 12 days of openai.
each weekday, we will have a livestream with a launch or demo, some big ones and some stocking stuffers.
we’ve got some great stuff to share, hope you enjoy! merry christmas.— Sam Altman (@sama) December 4, 2024
What’s dropped?
Friday, December 20
On the last day of OpenAI, OpenAI unveiled its latest models, o3, which encompass o3 and o3 mini.
- As previously reported, the reason for the name that skips “o2” is the existence of Telefonica’s O2 telecommunications brand, which could cause confusion and copyright issues.
- OpenAI said that the technology will not be available to the general public yet.
- o3 can outperform o1 in a variety of benchmarks, including math and science, as seen in its performance on the AIME 2024, a competition math benchmark, and the GPQA, a Ph.D. level science benchmark with biology, physics, and chemistry questions.
- o3 also scored a new state-of-the-art score on the ARC-AGI benchmark, which is significant because it shows the model is nearing AGI, although, to be clear, it is not there yet.
- o3 mini is a new model in the o3 family that will support three reasoning options: low, medium, and high. The thinking time determines the performance. At a low level, it performs the same as o1-mini on the Codeforces Competition Code benchmark, but at medium and high, it can perform comparable to o1, if not better. This performance remained consistent across other evals.
- In addition to internal safety testing, OpenAI is, for the first time, opening up the o3 models to external safety testing. Safety researchers can get early access to the model by filling out a form on the OpenAI website, which will be open until January 10.
- Sam Altman concluded the live stream by sharing that the o3 model is planned to launch at the end of January, and the full o3 model will be launched after that.
- The company also introduced deliberative alignment, “a training paradigm that directly teaches reasoning LLMs the text of human-written and interpretable safety specifications, and trains them to reason explicitly about these specifications before answering,” according to OpenAI.
Thursday, December 19
On the second to last day of ’12 days of OpenAI,’ the company focused on releases regarding its MacOS desktop app and its interoperability with other apps.
- Users can now use the desktop app on MacOS to see and automate their work with ChatGPT. There will be more releases of this nature in 2025, but until then, OpenAI has been introducing the three features below.
- Using the “Work with Apps” button, users can now work with many more coding apps. The list includes: BBEdit, MatLab, Nova, Script Editor, TextMate, Android Studio, AppCode, CLion, DataGrip, GoLand, IntelliJ IDEA, PHPStorm, PyCharm, RubyMine, RustRover, WebStorm, Prompt, and Warp.
- For users who use ChatGPT for writing, the desktop app now supports Apple Notes, Quip, and Notion.
- Lastly, the desktop app for MacOS now supports Advanced Voice Mode while working with other apps.
- Features have already been shipped. All you have to do is have the latest version of the MacOS app and a Plus, Pro, Team, Enterprise, and Edu subscription.
- To ease privacy concerns, OpenAI says ChatGPT will only work with apps when manually prompted. When the feature is active, users know what will be attached to the message.
- “Day 12, we have something super special, so don’t miss it,” teased OpenAI about its upcoming Friday release.
Wednesday, December 18
Have you ever wanted to use ChatGPT without a Wi-Fi connection? Now, all you have to do is place a phone call. Here’s what OpenAI released on the 10th day:
- By dialing 1-800-ChatGPT, you can now access the chatbot via a toll-free number. OpenAI encourages users to save ChatGPT in their contacts for easy access.
- Users can call anywhere in the US; in other countries, users can message ChatGPT on WhatsApp. Users get 15 minutes of free ChatGPT calls per month.
- In WhatsApp, users can enter a prompt via a text as they would with any other person in their contacts. In this experience, it is just a text message.
- The phone call feature works on any phone, from a smartphone to a flip phone — even a rotary phone.
- The presenters said it is meant to make ChatGPT more accessible to more users.
Tuesday, December 17
The releases on the ninth day all focus on developer features and updates, dubbed “Mini Dev Day.” These launches include:
- The o1 model is finally out of preview in the API with support for function calling, structured outputs, developer messages, vision capabilities, and lower latency, according to the company.
- o1 in the API also features a new parameter: “reasoning effort.” This parameter allows developers to tell the model how much effort is put into formulating an answer, which helps with cost efficiency.
- OpenAI also introduced WebRTC support for the Realtime API, which makes it easier for developers “to build and scale real-time voice products across platforms.”
- The Realtime API also got a 60% audio token price drop, support for GPT-4o mini, and more control over responses.
- The fine-tuning API now supports Preference Fine-Tuning, which allows users to “Optimize the model to favor desired behavior by reinforcing preferred responses and reducing the likelihood of unpreferred ones,” according to OpenAI.
- OpenAI also introduced new Go and Java SDKs in beta.
- An “AMA” (ask me anything) session will be held for an hour after the live stream on the OpenAI GitHub platform with the presenters.
Monday, December 16
The drops for the second Monday in the 12 days of OpenAI series all focused on Search in ChatGPT.
- The AI search engine is available to all users starting today, including all free users who are signed in anywhere they can access ChatGPT. The feature was previously only available to ChatGPT Plus users.
- The search experience, which allows users to browse the web from ChatGPT, got faster and better on mobile and now has an enriched map experience. The upgrades include image-rich visual results.
- Search is integrated into Advance Voice mode, meaning you can now search as you talk to ChatGPT. To activate this feature, just activate Advance Voice the same way you regularly would and ask it your query verbally. It will then answer your query verbally by pulling from the web.
- OpenAI also teased developers, saying, “Tomorrow is for you,” and calling the upcoming livestream a “mini Dev Day.”
Friday, December 13
One of OpenAI’s most highly requested features has been an organizational feature to better keep track of your conversations. On Friday, OpenAI delivered a new feature called “Projects.”
- Projects is a new way to organize and customize your chats in ChatGPT, meant to be a part of continuing to optimize the core experience of ChatGPT.
- When creating a Project, you can include a title, a customized folder color, relevant project files, instructions for ChatGPT on how it can best help you with the project, and more in one place.
- In the Project, you can start a chat and add previous chats from the sidebar to your Project. It can also answer questions using your context in a regular chat format. The chats can be saved in the Project, making it easier to pick up your conversations later and know exactly what to look for where.
- It will be rolled out to Plus, Pro, and Teams users starting today. OpenAI says it’s coming to free users as soon as possible. Enterprise and Edu users will see it rolled out early next year.
Thursday, December 12
When the live stream started, OpenAI addressed the elephant in the room — the fact that the company’s live stream went down the day before. OpenAI apologized for the inconvenience and said its team is working on a post-mortem to be posted later.
Then it got straight into the news — another highly-anticipated announcement:
- Advanced Voice Mode now has screen-sharing and visual capabilities, meaning it can assist with the context of what it is viewing, whether that be from your phone camera or what’s on your screen.
- These capabilities build on what Advanced Voice could already do very well — engaging in casual conversation as a human would. The natural-like conversations can be interrupted, have multi-turns, and understand non-linear trains of thought.
- In the demo, the user gets directions from ChatGPT’s Advanced Voice on how to make a cup of coffee. As the demoer goes through the steps, ChatGPT is verbally offering insights and directions.
- There’s another bonus for the Christmas season: Users can access a new Santa voice. To activate it, all users have to do is click on the snowflake icon. Santa is rolling out throughout today everywhere that users can access ChatGPT voice mode. The first time you talk to Santa, your usage limits reset, even if you have reached the limit already, so you can have a conversation with him.
- Video and screen sharing are rolling out in the latest mobile apps starting today and throughout next week to all Team users and most Pro and Plus subscribers. Pro and Plus subscribers in Europe will get access “as soon as we can,” and Enterprise and Edu users will get access early next year.
Wednesday, December 11
Apple released iOS 18.2 on Wednesday. The release includes integrations with ChatGPT across Siri, Writing Tools, and Visual Intelligence. As a result, the live stream focused on walking through the integration.
- Siri can now recognize when you ask questions outside its scope that could benefit from being answered by ChatGPT instead. In those instances, it will ask if you’d like to process the query using ChatGPT. Before any request is sent to ChatGPT, a message notifying the user and asking for permission will always appear, placing control in the user’s hands as much as possible.
- Visual Intelligence refers to a new feature for the iPhone 16 lineup that users can access by tapping the Camera Control button. Once the camera is open, users can point it at something and search the web with Google, or use ChatGPT to learn more about what they are viewing or perform other tasks such as translating or summarizing text.
- Writing Tools now features a new “Compose” tool, which allows users to create text from scratch by leveraging ChatGPT. With the feature, users can even generate images using DALL-E.
All of the above features are subject to ChatGPT’s daily usage limits, the same way that users would reach limits while using the free version of the model on ChatGPT. Users can choose whether or not to enable the ChatGPT integration in Settings.
Read more about it here: iOS 18.2 rolls out to iPhones: Try these 6 new AI features today
Tuesday, December 10
- Canvas is coming to all web users, regardless of plan, in GPT-4o, meaning it is no longer just available in beta for ChatGPT Plus users.
- Canvas has been built into GPT-4o natively, meaning you can just call on Canvas instead of having to go to the toggle on the model selector.
- The Canvas interface is the same as what users saw in beta in ChatGPT Plus, with a table on the left hand side that shows the Q+A exchange and a right-hand tab that shows your project, displaying all of the edits as they go, as well as shortcuts.
- Canvas can also be used with custom GPTs. It is turned on by default when creating a new one, and there is an option to add Canvas to existing GPTs.
- Canvas also has the ability to run Python code directly in Canvas, allowing ChatGPT to execute coding tasks such as fixing bugs.
Read more about it here: I’m a ChatGPT power user – and Canvas is still my favorite productivity feature a month later
Monday, December 9
OpenAI teased the third-day announcement as “something you’ve been waiting for,” followed by the much-anticipated drop of its video model — Sora. Here’s what you need to know:
- Known as Sora Turbo, the video model is smarter than the February model that was previewed.
- Access is coming in the US later today; users need only ChatGPT Plus and Pro.
- Sora can generate video-to-video, text-to-video, and more.
- ChatGPT Plus users can generate up to 50 videos per month at 480p resolution or fewer videos at 720p. The Pro Plan offers 10x more usage.
- The new model is smarter and cheaper than the previewed February model.
- Sora features an explore page where users can view each other’s creations. Users can click on any video to see how it was created.
- A live demo showed the model in use. The demo-ers entered a prompt and picked aspect ratio, duration, and even presets. I found the live demo video results to be realistic and stunning.
- OpenAI also unveiled Storyboard, a tool that lets users generate inputs for every frame in a sequence.
Friday, December 6:
On the second day of “shipmas,” OpenAI expanded access to its Reinforcement Fine-Tuning Research Program:
- The Reinforcement Fine-Tuning program allows developers and machine learning engineers to fine-tune OpenAI models to “excel at specific sets of complex, domain-specific tasks,” according to OpenAI.
- Reinforcement Fine-Tuning refers to a customization technique in which developers can define a model’s behavior by inputting tasks and grading the output. The model then uses this feedback as a guide to improve, becoming better at reasoning through similar problems, and enhancing overall accuracy.
- OpenAI encourages research institutes, universities, and enterprises to apply to the program, particularly those that perform narrow sets of complex tasks, could benefit from the assistance of AI, and perform tasks that have an objectively correct answer.
- Spots are limited; interested applicants can apply by filling out this form.
- OpenAI aims to make Reinforcement Fine-Tuning publicly available in early 2025.
Thursday, December 5:
OpenAI started with a bang, unveiling two major upgrades to its chatbot: a new tier of ChatGPT subscription, ChatGPT Pro, and the full version of the company’s o1 model.
The full version of o1:
- Will be better for all kinds of prompts, beyond math and science
- Will make major mistakes about 34% less often than o1-preview, while thinking about 50% faster
- Rolls out today, replacing o1-preview to all ChatGPT Plus and now Pro users
- Lets users input images, as seen in the demo, to provide multi-modal reasoning (reasoning on both text and images)
ChatGPT Pro:
- Is meant for ChatGPT Plus superusers, granting them unlimited access to the best OpenAI has to offer, including unlimited access to OpenAI o1-mini, GPT-4o, and Advanced Mode
- Features o1 pro mode, which uses more computing to reason through the hardest science and math problems
- Costs $200 per month
Where can you access the live stream?
The live streams were held on the OpenAI website, and posted to its YouTube channel immediately after. So if you missed the 12 days of OpenAI and want to rewatch, you can access them all on the company’s YouTube channel.
You may like
Noticias
Movimiento de Windsurf de $ 3B de OpenAI: la verdadera razón detrás de su empuje de código AI empresarial
Published
2 horas agoon
9 mayo, 2025
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
La carrera entre los gigantes de IA ha cambiado por completo. Openai, la compañía que durante los últimos años establece en gran medida la agenda en inteligencia artificial, ahora se encuentra en una carrera de alto riesgo para defender su territorio y conquistar nuevas fronteras, particularmente la codificación con AI. La adquisición reportada de Windsurf, un entorno de desarrollo integrado nativo de AI (IDE), por $ 3 mil millones, una enorme suma considerando que Windsurf solo tiene $ 40 millones en ingresos anualizados, refleja la urgente necesidad de OpenAi de contrarrestar grandes desafíos de Google y anthópico y asegurar una posición dominante en el agente emergente AI World.
Específicamente, la maniobra subraya dos imperativos para OpenAI: primero, la necesidad de armar el ecosistema de desarrolladores vitales con capacidades de codificación superiores, y segundo, para ganar la batalla más amplia y definitoria para convertirse en la interfaz principal para un futuro formado por agentes autónomos de IA.
Operai está en el pie trasero en este momento, y necesita este trato.
El nuevo panorama competitivo: Operai juega defensa
Para los tomadores de decisiones técnicas empresariales, el paisaje de IA es un tablero de ajedrez. Mientras que Operai cuenta con una base de usuarios masiva para CHATGPT, alcanzando los 700-800 millones de usuarios activos después de los recientes lanzamientos de características de imágenes, su liderazgo en la IA empresarial de vanguardia, particularmente para los desarrolladores, se ha disipado notablemente en los últimos meses.
Este cambio es evidente en el ámbito de la codificación asistida por AI. Google, con su destreza de infraestructura y la cabeza de Géminis Josh Woodward, ha estado actualizando agresivamente sus modelos Gemini, incluida la reciente actualización de Gemini 2.5 Pro, con un enfoque claro en mejorar las habilidades de codificación. Este modelo encabeza los puntos de referencia clave. Anthrope, también, ha realizado significados incursiones con su serie Claude, con modelos como el soneto Claude 3.5 y el nuevo soneto Claude 3.7 que se convierten en valores predeterminados en plataformas de codificación de IA populares como Cursor, y generalmente se ha considerado un líder en ofertas de codificación empresarial en general. Y las nuevas plataformas de codificación (Windsurf, Cursor, RepliS, Levable y varias otras) son donde los desarrolladores están recurriendo cada vez más para generar código a través de indicaciones de alto nivel dentro de un entorno agente.
Irónicamente, Operai fue el primer jugador en defender las LLM para codificar. En 2021, por ejemplo, entrenó en el código público de GitHub y ayudó a GitHub a lanzar Copilot, y también lanzó una API de Codex, que convirtió el lenguaje natural en código. Quizás sin darse cuenta aplazando a Microsoft y Github en el área de aplicaciones de codificación, ahora se está encontrando detrás.
Esta presión competitiva es un impulsor principal detrás de la valoración de $ 3 mil millones para Windsurf, un acuerdo que, según los informes, se acuerda, pero aún no está cerrado. La valoración de Windsurf refleja la necesidad estratégica en lugar de los rendimientos financieros inmediatos, y sería la adquisición más grande de OpenAI hasta la fecha.
Para los tomadores de decisiones técnicas empresariales, este empuje entre Openai, Google y Anthrope dictará la estabilidad futura de la plataforma, las hojas de ruta y las posibilidades de integración cruciales.
Los ajustes estratégicos de OpenAI últimamente también incluyen su estructura corporativa y su alianzas. Recientemente anunció un cambio hacia una estructura de empresa de beneficios público, después de intentar un traslado a una estructura con fines de lucro. Además, Operai ya no puede confiar únicamente en su relación históricamente estrecha con Microsoft y su subsidiaria de codificación GitHub. La CEO de Microsoft, Satya Nadella, fomenta cada vez más un enfoque de “jardín abierto”, apoyando iniciativas como el protocolo A2A (agente a agente) lanzado por Google y el Protocolo de contexto del modelo abierto (MCP). Esta dinámica en evolución significa que OpenAI debe asegurar sus propios canales directos al ecosistema del desarrollador.
La carrera armamentista de codificación: por qué Windsurf es una apuesta multimillonaria
La carrera para dominar la codificación asistida por AI-no se trata realmente de la tecnología, aunque la tecnología de Windsurf es impresionante. Se trata más de capturar el flujo de trabajo del desarrollador, que se está convirtiendo rápidamente en el aspecto más monetizable de la tecnología LLM actual. Los codificadores están utilizando estas herramientas de agentes de codificación (cursor, windsurf y similares) para escribir código, sentarse allí durante horas al día y construir un código real que se pueda implementar. Es probable que esto sea mucho más valioso que las interacciones ocasionales del consumidor.
Y es donde Windsurf entra en la foto. Fundada por Varun Mohan y Douglas Chen, la compañía comenzó como exafunción en 2021, centrándose en la utilización e inferencia de GPU, antes de pivotar en 2022 a las herramientas de desarrolladores de IA, y finalmente lanzó el editor de Windsurf. Windsurf se distinguió temprano al estar entre los primeros en enviar un IDE totalmente agente, con innovaciones como la compresión de contexto en el tiempo de inferencia y la fragmentación de AST. Sus características destacadas incluyen “Cascade”, un sistema que proporciona una conciencia de contexto profundo en una base de código completa para cambios coherentes en múltiples archivos, y “flujos”, diseñado para la colaboración de IA en tiempo real donde la IA entiende y se adapta activamente al trabajo continuo del desarrollador. (Este podcast con Mohan, publicado la semana pasada, proporciona un buen contexto en torno a la historia y la estrategia de Windsurf).
Mientras que Operai posee un inmenso talento de ingeniería y recientemente ha reforzado su destreza de codificación internamente, incluida la liberación de su propia CLI Codex, la adquisición de Windsurf ofrece velocidad y un punto de apoyo establecido. Como Sam Witteveen, un desarrollador de agentes de IA independiente, dijo en nuestra reciente conversación de videocast sobre estos últimos movimientos: “No es la tecnología que están comprando, están comprando una base de usuarios aquí. Realmente necesitan tener un punto de apoyo bueno y fuerte para asumir el cursor y, lo que es más importante, para enfrentar a Anthrope y Google”.
Según los informes, Windsurf, que tiene “varios cientos de miles de usuarios activos diarios” según su CEO, está ganando terreno con grandes empresas que tienen bases de código complejas de millones, un segmento crucial para OpenAI. Este enfoque en la implementación de grado empresarial y el manejo de grandes bases de código puede diferenciar Windsurf de competidores como Cursor, que, a pesar de una impresionante valoración de ~ $ 300 millones y una valoración de $ 9 mil millones, se rumorea que enfrenta una mayor rotación a medida que los desarrolladores buscan soluciones de despliegue más robustas.
Una adquisición de Windsurf podría permitir a OpenAi saltar ciclos de desarrollo interno, crucial en lo que muchos ven como una situación de aceleración de la tierra. Se indica un movimiento hacia la gestión de proyectos, la depuración y los entornos de desarrollo más completos, integrando capacidades de razonamiento avanzado como las que se ven en el modelo O1 de OpenAI (con sus trazas de razonamiento) directamente en el principal juego de herramientas del desarrollador.
El Gran Premio: Convertirse en el punto de partida para un mundo agente
Sin embargo, el intenso enfoque en las herramientas de codificación es simplemente un frente en una competencia mucho mayor: la carrera para convertirse en la interfaz principal para un mundo de IA cada vez más agente. Claro, se trata de ayudar a los desarrolladores a escribir código de manera más eficiente. Pero se trata más de ser dueño del punto de partida para donde los consumidores, desarrolladores y trabajadores de conocimiento empresarial orquestan tareas complejas a través de agentes de IA.
La masa base de usuarios de ChatGPT de OpenAI proporciona una ventaja de distribución significativa. La integración de las capacidades similares a Windsurf podría transformar el CHATGPT en una “página de inicio” más convincente para una amplia gama de tareas de agente. Sin embargo, Google presenta un desafío formidable aquí. Si bien su enfoque para las interfaces de IA (Google.com, Vertex AI, AI Studio, Agentspace, la aplicación Gemini) puede parecer fragmentado, también representa múltiples apuestas estratégicas en un mercado naciente.
La pregunta para los líderes empresariales es cómo se verá este “punto de partida agente”. ¿Será una interfaz única y dominante o un jardín más abierto de agentes especializados integrados en diversas aplicaciones, y accesible desde miles de lugares diferentes, desde Salesforce para CRM, Meta para las redes sociales y una miríada de otras plataformas de desarrolladores?
¿Se puede hacer el trabajo de agente desde en cualquier lugar? “[The] Code Stuff está a punto de hacer un cambio “, dijo el desarrollador de IA Witteveen.” La gente se está mudando a una cosa de agente en la que quizás resuelva un documento de requisito de producto completo, lo pones allí, y luego se apaga y se muele para poder básicamente tener una codificación de agente “. No está claro que debe haber un punto de partida singular.
De hecho, la carrera de líderes como OpenAi y Google para establecer un ‘punto de partida’ dominante se complica por el impulso simultáneo de la industria para la apertura. Notado May Habib, CEO de Writer: “Cuando todos intentan ser interoperables y abiertos, ¿qué significa realmente ganar esa capa superior?” Ella cuestionó en una conversación con VentureBeat. “Todos intentan ser ese punto de partida más alto”.
De cualquier manera, quien sea que “posee” un punto de partida tendrá que abrazar la apertura, dijo. El cambio hacia la codificación de agente, y un ecosistema abierto y extensible, ha sido subrayado por la adopción generalizada de MCP. Deepak Agarwal, director de IA en LinkedIn, en una conversación reciente con VentureBeat, calificada de MCP posiblemente el invento más importante últimamente. “Es como inventar el HTTP de AI”, dijo. Esta nueva apertura beneficia tanto a los codificadores tradicionales como a la nueva clase de “creadores” dentro de las empresas: expertos en dominios que pueden usar estas herramientas de agente para crear soluciones de software personalizadas sin experiencia en codificación. Pueden crear CRMS personalizados o sistemas de tareas tareas únicas adaptadas a sus necesidades específicas. Para las empresas, esto significa proporcionar entornos de caja de arena donde los empleados pueden descubrir, construir y eventualmente integrar estas soluciones impulsadas por la IA en sus flujos de trabajo.
Navegar por el tablero de ajedrez de IA: imperativos para los líderes empresariales
Para los tomadores de decisiones técnicas en la empresa, aquí hay algunas implicaciones:
- Estabilidad y confiabilidad de la plataforma: La intensa competencia y los cambios estratégicos (como la reestructuración corporativa de OpenAI) significan que las empresas deben evaluar la estabilidad y confiabilidad a largo plazo de sus plataformas de IA elegidas.
- La relación evolutiva de OpenAi-Microsoft: El movimiento de Microsoft hacia un “jardín abierto” y el soporte para protocolos de agentes multiplataforma (como A2A) significa que las empresas que dependen del ecosistema de Azure tendrán más opciones, pero también necesitan navegar un paisaje más complejo ya que OpenAI encuentra otros puntos de distribución como Windsurf.
- El surgimiento del desarrollo de la agente: La transición de la codificación asistida por AI a entornos de desarrollo verdaderamente agentes está ocurriendo. Los líderes deben preparar a sus equipos para herramientas que ofrecen razonamiento de varios pasos, conciencia de contexto en todo el proyecto y ejecución de tareas autónomas. Esto requiere fomentar habilidades en ingeniería rápida, orquestación de agentes y comprender las capacidades y limitaciones de estos nuevos sistemas.
- Abraza la caja de arena: A medida que las herramientas de IA se vuelven más poderosas y democratizadas, es crucial proporcionar entornos de sandbox seguros y gobernados para la experimentación. Esto permite a los equipos explorar el potencial de la IA de agente para crear soluciones personalizadas e impulsar la innovación sin comprometer los datos o sistemas empresariales. Esta caja de arena pronto puede incluir cualquier interfaz que finalmente se ocurra el dúo Operai-Windsurf (suponiendo que su acuerdo se presente), las ofertas de Google y decenas de otros.
Mira la inmersión completa en el nuevo ecosistema, con Sam Witteveen y yo, en nuestro podcast aquí:
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.

Noticias
Cómo se compara la nueva búsqueda web de Claude Ai con Gemini y Chatgpt
Published
8 horas agoon
9 mayo, 2025
Los bots de IA quieren ayudarlo con sus búsquedas en la web, así como con todo lo demás, y Claude es el último asistente de inteligencia artificial para obtener la capacidad de buscar información en línea, ya sea que sean los últimos titulares de noticias o los últimos precios de los dispositivos.
“Con la búsqueda web, Claude tiene acceso a los últimos eventos e información, lo que aumenta su precisión en las tareas que se benefician de los datos más recientes”, dice el desarrollador Anthrope. La función está disponible ahora en todos los planes pagados, y “llegará pronto” para los usuarios gratuitos.
Web Search es un tipo diferente de desafío para los modelos de IA, probando su capacidad de examinar y evaluar el contenido publicado en la web, en lugar de integrarse en sus datos de capacitación. Así es como se avanza Claude, y se compara con Google Gemini y Chatgpt.
Uso de la búsqueda web en Claude
Habilitar la función de búsqueda web.
Crédito: Lifehacker
Para dar acceso web a Claude, haga clic en el botón Sliders en el cuadro de solicitud y habilite el Búsqueda web Interruptor de palanca. El bot de AI se referirá a la web en general a medida que lo considera apropiado para su consulta, pero si desea asegurarse de que use información en línea como parte de su respuesta, incluya algo como “Buscar en la web” en su aviso.
Cuando se invoca una búsqueda en la web, Claude le notificará como parte de la respuesta, y generalmente tarda un poco más en regresar con una respuesta. Cuando aparece la respuesta, obtienes pequeños botones de citas al final de ciertas oraciones, para que sepa de dónde proviene la información. Haga clic en cualquier cita para saltar a ese sitio web en una nueva pestaña.
Puede ejecutar casi cualquier consulta que pueda escribir en Google, cubriendo todo, desde pronósticos meteorológicos y puntajes deportivos hasta inmersiones profundas en el historial de la música y ayudar a solucionar problemas de computadora. Como de costumbre, puede hacer un seguimiento con más preguntas sobre los resultados que Claude le ha dado.
Es fácil ver el potencial para que la IA voltee la forma en que buscamos en la web, en cómo ofrece una experiencia más natural y matizada que la lista estándar de enlaces en Google. Sin embargo, no está exento de problemas, no menos si estos bots de IA se pueden confiar y de dónde van a obtener su información si los seres humanos reales ya no tienen incentivos para publicar en la web.
Obtener la noticia del día

Elegir las noticias tecnológicas actuales.
Crédito: Lifehacker
Me encargué de que Claude me trajera los titulares de noticias tecnológicas del día, y de hecho realizó dos búsquedas web para asegurarse de que lo obtuviera todo. Leí las noticias de tecnología todos los días, y Claude hizo un buen trabajo, aquí: las historias eran en su mayoría nuevas, y en su mayoría relevantes, aunque los enlaces de citas tendían a ir a las páginas delanteras de los sitios de noticias, en lugar de artículos individuales.
Gemini estaba a la par de Claude, aunque logró vincularse a artículos específicos, no solo los centros de noticias. Casi cada resultado fue de los últimos días, tomado de una fuente de buena reputación, y relativamente significativa en el mundo de las noticias tecnológicas, aunque hubo algunas fallas: un nuevo teléfono Samsung en India, por ejemplo, que realmente no me importa.
A Chatgpt, y el Bot Operai fue probablemente el peor del lote cuando se trataba de devolver los resultados que me importaban de los sitios que son los más respetados en el espacio de noticias tecnológicas (aunque se podría argumentar que es una decisión subjetiva). Todavía estaba bien, pero preferí los resultados que obtuve de Claude y Gemini.
Cuando se le pidió que devolviera las últimas noticias de Lifehacker, Claude no pudo hacerlo, y ChatGPT acaba de enumerar los titulares de la página de inicio actual sin enlaces. Gemini en realidad me dio las últimas historias, completa con enlaces, así que funciona mejor aquí, aunque la mejor opción es probablemente solo para abrir Lifehacker en su navegador.
Verificación de hechos en línea

Claude sabe sus películas … o más bien, sabe consultar Wikipedia.
Crédito: Lifehacker
En la comprobación de hechos: probé a Claude con una pregunta de película a la que ya conozco la respuesta. ¿Cuántos Oscar fueron ganados por Uno voló sobre el nido del cuco? Obtuvo la respuesta correcta y el año correcto, y dio el contexto de que es solo la tercera película de la historia en obtener los cinco grandes premios de la Academia: Mejor director, Mejor Actor, Mejor Actriz, Mejor Película y el mejor guión adaptado (ver si puedes adivinar cuáles son las otras dos películas).
Gemini también obtuvo las respuestas y el contexto de la gran victoria. Sus fuentes cubrieron una variedad más amplia de sitios e incluso YouTube, mientras que Claude se pegó a Wikipedia y al sitio oficial de los Oscar. Dio una respuesta más corta y más breve que Claude, y no incluía información de antecedentes sobre tomas de taquilla.
¿Qué piensas hasta ahora?
En cuanto a CHATGPT, nuevamente logró armar una respuesta precisa, con el contexto útil sobre el éxito de los cinco grandes y las otras películas que han manejado la hazaña. Al igual que Claude, se pegó principalmente a Wikipedia, pero hizo algo que no Claude ni Gemini lo hicieron: incluía un video de YouTube de la presentación de Oscar mejor imagen.
Este tipo de búsquedas en la web no son particularmente exigentes. Las preguntas más complejas pueden plantear más problemas, especialmente si las respuestas no están disponibles y la IA se siente tentado a inventarlos. Intenté engañar a estos bots de IA para que pensara que Daniel Day-Lewis ganó dos Oscar al mejor actor en años consecutivos, pero los tres identificaron correctamente que esto nunca sucedió.

Claude no es muy útil para comprar en la web.
Crédito: Lifehacker
Las compras en línea podrían ser transformadas por AI. Si bien las personas reales siempre serán mejores que los bots para elegir las compras correctas, la IA puede raspar rápidamente y resumir las opiniones de los seres humanos reales y empaquetarlos en una interfaz limpia y amigable mientras toma un corte de las ventas. Es como tener un asistente inteligente con usted, sin necesidad de vadear a través de masas de información o resultados de búsqueda.
Le pedí a Claude que recomendara un regalo extravagante para mí, basado en deportes o películas, y buscó obedientemente páginas que enumeran los extravagantes deportes y regalos de películas. Le fue bien elegir algunas ideas, pero creo que esta es una consulta que podría haber corrido a través de Google sin preocuparme de la IA.
Géminis dio una respuesta más personalizada y de cambio. No proporcionó ningún enlace web en este caso, tal vez porque Google quiere mantenerlo en su principal motor de búsqueda para este tipo de consultas: a diferencia de Claude o ChatGPT, Google ya gana mucho dinero que los usuarios hacen clic en comprar enlaces de sus resultados de búsqueda de compras.
ChatGPT dio los resultados más útiles aquí, tal vez gracias a su reciente actualización de compras. Las fuentes que enumeró fueron similares a las que usaron Claude, pero proporcionó algunas selecciones superiores distintas, junto con precios y enlaces para comprarlos en la web. Más adelante, esta podría ser una de las formas en que Operai recupera parte de su dinero.
La búsqueda web claramente sigue siendo un trabajo en progreso para todas estas herramientas de IA. En algunos casos, funciona mejor que una búsqueda tradicional de Google, pero no siempre, y siempre existe el problema de cuán lejos puede confiar en estas respuestas seguras y pulidas sin verificar las fuentes originales de las que obtienen su información.
Divulgación: la empresa matriz de Lifehacker, Ziff Davis, presentó una demanda contra Operai en abril, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.
Noticias
¿Puede ChatGPT pasar la prueba de Turing? Lo que dice la investigación.
Published
12 horas agoon
9 mayo, 2025
Los chatbots de inteligencia artificiales como ChatGPT se están volviendo mucho más inteligentes, mucho más naturales y mucho más … como humanos. Tiene sentido: los humanos son los que crean los modelos de idiomas grandes que sustentan los sistemas de chatbots de IA, después de todo. Pero a medida que estas herramientas mejoran en “razonamiento” e imitan el discurso humano, ¿son lo suficientemente inteligentes como para aprobar la prueba de Turing?
Durante décadas, la prueba de Turing se ha mantenido como un punto de referencia clave en la inteligencia de máquinas. Ahora, los investigadores en realidad están poniendo a prueba LLM como ChatGPT. Si ChatGPT puede pasar, el logro sería un hito importante en el desarrollo de IA.
Entonces, ¿puede ChatGPT pasar la prueba de Turing? Según algunos investigadores, sí. Sin embargo, los resultados no son completamente definitivos. La prueba de Turing no es un simple pase/falla, lo que significa que los resultados no son realmente en blanco y negro. Además, incluso si ChatGPT podría pasar la prueba de Turing, eso puede no decirnos realmente cuán “humano” es realmente un LLM.
Vamos a desglosarlo.
¿Cuál es la prueba de Turing?
El concepto de la prueba de Turing es realmente bastante simple.
La prueba fue originalmente propuesta por el matemático británico Alan Turing, el padre de la informática moderna y un héroe para los nerds de todo el mundo. En 1949 o 1950, propuso el juego de imitación, una prueba de inteligencia de máquinas que desde entonces ha sido nombrada por él. La prueba de Turing implica que un juez humano tenga una conversación con un humano y una máquina sin saber cuál es cuál (o quién es quién, si crees en AGI). Si el juez no puede decir cuál es la máquina y cuál es la humana, la máquina pasa la prueba de Turing. En un contexto de investigación, la prueba se realiza muchas veces con múltiples jueces.
Por supuesto, la prueba no puede determinar necesariamente si un modelo de lenguaje grande es realmente tan inteligente como un humano (o más inteligente), solo si es capaz de pasar por un humano.
¿Los LLM realmente piensan como nosotros?
Los modelos de lenguaje grande, por supuesto, no tienen cerebro, conciencia o modelo mundial. No son conscientes de su propia existencia. También carecen de opiniones o creencias verdaderas.
En cambio, los modelos de idiomas grandes se capacitan en conjuntos de datos masivos de información: libros, artículos de Internet, documentos, transcripciones. Cuando un usuario ingresa el texto, el modelo AI usa su “razonamiento” para determinar el significado y la intención más probables de la entrada. Luego, el modelo genera una respuesta.
En el nivel más básico, los LLM son motores de predicción de palabras. Utilizando sus vastas datos de entrenamiento, calculan las probabilidades para el primer “token” (generalmente una sola palabra) de la respuesta utilizando su vocabulario. Repiten este proceso hasta que se genera una respuesta completa. Esa es una simplificación excesiva, por supuesto, pero mantengámoslo simple: las LLM generan respuestas a la entrada en función de la probabilidad y las estadísticas. Entonces, la respuesta de un LLM se basa en las matemáticas, no en una comprensión real del mundo.
Velocidad de luz mashable
Entonces, no, LLM no en realidad pensar en cualquier sentido de la palabra.
¿Qué dicen los estudios sobre ChatGPT y la prueba de Turing?
Joseph Maldonado / Mashable Composite por Rene Ramos
Crédito: Mashable
Ha habido bastantes estudios para determinar si ChatGPT ha aprobado la prueba de Turing, y muchos de ellos han tenido hallazgos positivos. Es por eso que algunos informáticos argumentan que, sí, modelos de idiomas grandes como GPT-4 y GPT-4.5 ahora pueden pasar la famosa prueba de Turing.
La mayoría de las pruebas se centran en el modelo GPT-4 de Openai, el que usa la mayoría de los usuarios de ChatGPT. Usando ese modelo, un Estudio de UC San Diego descubrieron que en muchos casos, los jueces humanos no pudieron distinguir GPT-4 de un humano. En el estudio, se consideró que GPT-4 era un humano el 54% del tiempo. Sin embargo, esto aún se quedó atrás de los humanos reales, que se consideró humano el 67% del tiempo.
Luego, se lanzó GPT-4.5, y los investigadores de UC San Diego Realizó el estudio nuevamente. Esta vez, el modelo de lenguaje grande se identificó como humano el 73% del tiempo, superando a los humanos reales. La prueba también encontró que el Llama-3.1-405b de Meta Meta pudo aprobar la prueba.
Otros estudios fuera de UC San Diego también han dado calificaciones de aprobación de GPT. Un 2024 Estudio de la Universidad de Reading de GPT-4 El modelo había creado respuestas para evaluaciones para llevar a casa para cursos de pregrado. Los alumnos de prueba no se les informó sobre el experimento, y solo marcaron una de las 33 entradas. ChatGPT recibió calificaciones anteriores al promedio con las otras 32 entradas.
Entonces, ¿son estos estudios? definitivo? No exactamente. Algunos críticos (y hay muchos) dicen que estos estudios de investigación no son tan impresionantes como parecen. Es por eso que no estamos listos para decir definitivamente que ChatGPT pasa la prueba de Turing.
Podemos decir que si bien los LLM de generación anterior como GPT-4 a veces pasan la prueba de Turing, los grados de aprobación se están volviendo más comunes a medida que los LLM se avanzan más. Y a medida que salen modelos de vanguardia como GPT-4.5, nos dirigimos rápidamente hacia modelos que pueden pasar fácilmente la prueba de Turing cada vez.
Operai en sí ciertamente imagina un mundo en el que es imposible distinguir a los humanos de la IA. Es por eso que el CEO de Operai, Sam Altman, ha invertido en un proyecto de verificación humana con una máquina de escaneo de globo ocular llamada Orbe.
¿Qué dice Chatgpt en sí mismo?
Decidimos preguntarle a ChatGPT si podía pasar la prueba de Turing, y nos dijo que sí, con las mismas advertencias que ya hemos discutido. Cuando planteamos la pregunta, “¿Puede Chatgpt pasar la prueba de Turing?” al chatbot Ai (usando el modelo 4o), nos dijo: “Chatgpt poder Pase la prueba de Turing en algunos escenarios, pero no de manera confiable o universal. “El chatbot concluyó:” Podría pasar la prueba de Turing con un usuario promedio en condiciones casuales, pero un interrogador determinado y reflexivo casi siempre podría desenmascararla “.

Imagen generada por IA.
Crédito: OpenAI
Las limitaciones de la prueba de Turing
Algunos científicos informáticos ahora creen que la prueba de Turing está desactualizada, y que no es tan útil para juzgar modelos de idiomas grandes. Gary Marcus, psicólogo estadounidense, científico cognitivo, autor y pronóstico popular de IA, lo resumió mejor en una publicación de blog reciente, donde escribió: “Como yo (y muchos otros) he dicho por añosLa prueba de Turing es una prueba de credulidad humana, no una prueba de inteligencia “.
También vale la pena tener en cuenta que la prueba de Turing se trata más de la percepción de inteligencia en lugar de actual inteligencia. Esa es una distinción importante. Un modelo como ChatGPT 4O podría pasar simplemente imitando el discurso humano. No solo eso, sino si un modelo de idioma grande pasa o no la prueba variará según el tema y el probador. ChatGPT podría simular fácilmente una pequeña charla, pero podría tener dificultades con las conversaciones que requieren una verdadera inteligencia emocional. No solo eso, sino que los sistemas de IA modernos se usan para mucho más que chatear, especialmente cuando nos dirigimos hacia un mundo de IA agente.
Nada de eso es decir que la prueba de Turing es irrelevante. Es un punto de referencia histórico ordenado, y ciertamente es interesante que los modelos de idiomas grandes puedan pasarlo. Pero la prueba de Turing no es el punto de referencia estándar de oro de la inteligencia de la máquina. ¿Cómo sería un mejor punto de referencia? Esa es otra lata de gusanos que tendremos que ahorrar para otra historia.
Divulgación: Ziff Davis, empresa matriz de Mashable, presentó en abril una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.
Temas
Inteligencia artificial
Related posts
















































































































































































































































































































Trending
-
Startups12 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Tutoriales12 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Recursos12 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Startups10 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Startups12 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos12 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Recursos12 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Noticias10 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo