OpenAI está disolviendo su equipo “AGI Readiness”, que asesoró a la empresa sobre la propia capacidad de OpenAI para manejar una IA cada vez más potente y la preparación del mundo para gestionar esa tecnología, según el jefe del equipo.
El miércoles, Miles Brundage, asesor senior de AGI Readiness, anunció su salida de la empresa a través de una publicación en Substack. Escribió que sus razones principales eran que el costo de oportunidad se había vuelto demasiado alto y pensaba que su investigación tendría más impacto externo, que quería ser menos sesgado y que había logrado lo que se propuso en OpenAI.
Brundage también escribió que, en cuanto a cómo le está yendo a OpenAI y al mundo en cuanto a la preparación de AGI, “ni OpenAI ni ningún otro laboratorio fronterizo está listo, y el mundo tampoco está listo”. Brundage planea iniciar su propia organización sin fines de lucro, o unirse a una existente, para centrarse en la investigación y la promoción de políticas de IA. Añadió que “es poco probable que la IA sea lo más segura y beneficiosa posible sin un esfuerzo concertado para que así sea”.
Los ex miembros del equipo AGI Readiness serán reasignados a otros equipos, según la publicación.
“Apoyamos plenamente la decisión de Miles de continuar su investigación de políticas fuera de la industria y estamos profundamente agradecidos por sus contribuciones”, dijo un portavoz de OpenAI a CNBC. “Su plan de apostar por la investigación independiente sobre políticas de IA le brinda la oportunidad de tener un impacto a una escala más amplia, y estamos entusiasmados de aprender de su trabajo y seguir su impacto. Estamos seguros de que en su nuevo rol “Miles seguirá elevando el listón de la calidad de la formulación de políticas en la industria y el gobierno”.
En mayo, OpenAI decidió disolver su equipo Superalignment, que se centraba en los riesgos a largo plazo de la IA, apenas un año después de anunciar el grupo, confirmó a CNBC en ese momento una persona familiarizada con la situación.
La noticia de la disolución del equipo de AGI Readiness sigue a los posibles planes de la junta directiva de OpenAI para reestructurar la empresa y convertirla en una empresa con fines de lucro, y después de que tres ejecutivos (la CTO Mira Murati, el jefe de investigación Bob McGrew y el vicepresidente de investigación Barret Zoph) anunciaran su partida el mismo día. mes pasado.
A principios de octubre, OpenAI cerró su animada ronda de financiación con una valoración de 157.000 millones de dólares, incluidos los 6.600 millones de dólares que la empresa recaudó de una amplia lista de firmas de inversión y grandes empresas tecnológicas. También recibió una línea de crédito renovable de 4.000 millones de dólares, lo que eleva su liquidez total a más de 10.000 millones de dólares. La compañía espera alrededor de 5 mil millones de dólares en pérdidas sobre 3,7 mil millones de dólares en ingresos este año, confirmó CNBC con una fuente familiarizada el mes pasado.
Y en septiembre, OpenAI anunció que su Comité de Seguridad, que la compañía presentó en mayo cuando abordaba la controversia sobre los procesos de seguridad, se convertiría en un comité de supervisión independiente de la junta directiva. Recientemente concluyó su revisión de 90 días evaluando los procesos y salvaguardas de OpenAI y luego hizo recomendaciones a la junta, y los hallazgos también se publicaron en una publicación de blog pública.
La noticia de las salidas de ejecutivos y cambios en la junta directiva también llega tras un verano de crecientes preocupaciones y controversias sobre seguridad en torno a OpenAI, que junto con Google, microsoftMeta y otras empresas están a la cabeza de una carrera armamentista generativa de IA, un mercado que se prevé superará el billón de dólares en ingresos en una década, mientras empresas de aparentemente todos los sectores se apresuran a añadir chatbots y agentes impulsados por IA para evitar quedarse atrás. detrás de los competidores.
En julio, OpenAI reasignó a Aleksander Madry, uno de los principales ejecutivos de seguridad de OpenAI, a un trabajo centrado en el razonamiento de la IA, según confirmaron a CNBC fuentes familiarizadas con la situación en ese momento.
Madry era el jefe de preparación de OpenAI, un equipo que tenía “la tarea de rastrear, evaluar, pronosticar y ayudar a proteger contra riesgos catastróficos relacionados con los modelos de IA fronterizos”, según una biografía de Madry en un sitio web de la iniciativa de IA de la Universidad de Princeton. Madry seguirá trabajando en el trabajo central de seguridad de la IA en su nuevo cargo, dijo OpenAI a CNBC en ese momento.
La decisión de reasignar a Madry se produjo casi al mismo tiempo que los senadores demócratas enviaron una carta al director ejecutivo de OpenAI, Sam Altman, sobre “preguntas sobre cómo OpenAI está abordando las preocupaciones de seguridad emergentes”.
La carta, que fue vista por CNBC, también decía: “Buscamos información adicional de OpenAI sobre los pasos que la compañía está tomando para cumplir con sus compromisos públicos en materia de seguridad, cómo la compañía está evaluando internamente su progreso en esos compromisos y sobre la identificación y mitigación de amenazas a la ciberseguridad por parte de la empresa”.
Microsoft renunció a su puesto de observador en la junta directiva de OpenAI en julio, afirmando en una carta vista por CNBC que ahora puede hacerse a un lado porque está satisfecho con la construcción de la junta directiva de la startup, que había sido renovada desde el levantamiento que condujo al breve derrocamiento de Altman y amenazó la enorme inversión de Microsoft en la empresa.
Pero en junio, un grupo de empleados actuales y anteriores de OpenAI publicó una carta abierta en la que describían preocupaciones sobre el rápido avance de la industria de la inteligencia artificial a pesar de la falta de supervisión y de protección de los denunciantes para aquellos que desean hablar.
“Las empresas de IA tienen fuertes incentivos financieros para evitar una supervisión efectiva, y no creemos que las estructuras personalizadas de gobierno corporativo sean suficientes para cambiar esto”, escribieron los empleados en ese momento.
Días después de la publicación de la carta, una fuente familiarizada con el asunto confirmó a CNBC que la Comisión Federal de Comercio y el Departamento de Justicia estaban listos para abrir investigaciones antimonopolio sobre OpenAI, Microsoft y Nvidia, centrándose en la conducta de las empresas.
La presidenta de la FTC, Lina Khan, describió la acción de su agencia como una “investigación de mercado sobre las inversiones y asociaciones que se están formando entre los desarrolladores de IA y los principales proveedores de servicios en la nube”.
Los empleados actuales y anteriores escribieron en la carta de junio que las empresas de IA tienen “información sustancial no pública” sobre lo que puede hacer su tecnología, el alcance de las medidas de seguridad que han implementado y los niveles de riesgo que tiene la tecnología para diferentes tipos. de daño.
“También entendemos los graves riesgos que plantean estas tecnologías”, escribieron, añadiendo que las empresas “actualmente sólo tienen obligaciones débiles de compartir parte de esta información con los gobiernos, y ninguna con la sociedad civil. No creemos que se pueda confiar en todas ellas”. compartirlo voluntariamente.”
El equipo Superalignment de OpenAI, anunciado el año pasado y disuelto en mayo, se había centrado en “avances científicos y técnicos para dirigir y controlar sistemas de IA mucho más inteligentes que nosotros”. En ese momento, OpenAI dijo que comprometería el 20% de su potencia informática a la iniciativa durante cuatro años.
El equipo se disolvió después de que sus líderes, el cofundador de OpenAI, Ilya Sutskever y Jan Leike, anunciaran su salida de la startup en mayo. Leike escribió en una publicación en X que la “cultura y los procesos de seguridad de OpenAI han pasado a un segundo plano frente a los productos brillantes”.
Altman dijo en ese momento en X que estaba triste por ver a Leike irse y que OpenAI tenía más trabajo por hacer. Poco después, el cofundador Greg Brockman publicó una declaración atribuida a Brockman y al CEO en X, afirmando que la compañía ha “creado conciencia sobre los riesgos y oportunidades de AGI para que el mundo pueda prepararse mejor para ello”.
“Me uní porque pensé que OpenAI sería el mejor lugar del mundo para realizar esta investigación”, escribió Leike en X en ese momento. “Sin embargo, he estado en desacuerdo con el liderazgo de OpenAI sobre las prioridades centrales de la compañía durante bastante tiempo, hasta que finalmente llegamos a un punto de ruptura”.
Leike escribió que cree que una mayor parte del ancho de banda de la empresa debería centrarse en la seguridad, la supervisión, la preparación, la protección y el impacto social.
“Es bastante difícil solucionar estos problemas y me preocupa que no estemos en la trayectoria para llegar allí”, escribió en ese momento. “Durante los últimos meses mi equipo ha estado navegando contra el viento. A veces estábamos luchando por [computing resources] y cada vez era más difícil llevar a cabo esta investigación crucial”.
Leike añadió que OpenAI debe convertirse en una “empresa AGI que prioriza la seguridad”.
“Construir máquinas más inteligentes que las humanas es una tarea intrínsecamente peligrosa”, escribió en X. “OpenAI está asumiendo una enorme responsabilidad en nombre de toda la humanidad. Pero en los últimos años, la cultura y los procesos de seguridad han pasado a un segundo plano frente a los brillantes productos.”
Géminis todavía está lejos de ser perfecto, pero lentamente se cultiva en mí. Específicamente, sin embargo, es el modo de conversación en vivo el que más me atrae porque es todo lo que siempre quise del Asistente de Google, y algo más. Puedo hablar con la IA, interrumpirlo, pedirle que lo repita, corregirlo y pedir más detalles, todo en una conversación muy natural y relajada.
Pero si eres alguien como yo y estás acostumbrado a hablar tres idiomas al mismo tiempo, a menudo en la misma oración, y tu cerebro funciona así de forma predeterminada, lo que hace que sea difícil mantener una conversación completa en un idioma, entonces probablemente hayas estado mordiendo en los bits, esperando que Gemini vive para apoyar varios idiomas. Con la caída del píxel de marzo, la función ahora está aquí, y oh. Mi. Cielos. ¿Es mucho mejor de lo que esperaba o qué?
¿Has intentado hablar con Gemini en varios idiomas?
2 votos
Más intuitivo y confiable que el varios idiomas de Google Assistant
Cuando Google lo anunció, pensé que el soporte de varios idiomas en Géminis Live significaba que podría tener una conversación en inglés y luego otra conversación en francés sin cambiar manualmente el idioma. Este ha sido el caso con el Asistente de Google durante años, excepto que tuve que configurar manualmente exactamente qué idiomas quería usar en el Asistente, y nunca funcionó tan bien como se esperaba.
Con Gemini Live, como puede ver en el video de arriba, ese no es el caso:
No tuve que elegir el idioma cada vez; Acabo de comenzar una nueva charla, y me entendió.
Fuera de la caja, funciona con todos los idiomas compatibles con Live. No tengo que limitarme a solo dos como con el asistente.
Aunque tuve algunos silencios incómodos de Géminis y tuve que repetir algunas oraciones, la tasa de éxito de la IA para reconocer diferentes idiomas ha superado el 90% en mis pruebas, y eso es más de lo que el asistente podría soñar.
Hablo tres idiomas casi nativamente (inglés, francés, árabe) y puedo entender y hablar (con un acento grueso) algunos español, italiano y alemán. Entonces, puse esto a prueba e probé diferentes chats con Gemini en vivo en todo esto. Me consiguió todos mis acentos nativos y gruesos cada vez.
El único con el que tuve problemas es, por extraño que parezca, mi lengua materna árabe. Podría hablar en árabe formal escrito, pero eso no es algo natural para mí. En cambio, cuando hablo, está en el dialecto libanés informal. Géminis, sin embargo, parece hablar una mezcla entre un dialecto levantino informal no descriptivo y el árabe formal escrito. Culpo esto a los millones de dialectos regionales y cuán complicados y ampliamente diferentes son, pero incluso entonces, la tasa de éxito fue más alta de lo que esperaba o había experimentado con Asistente en árabe.
Todo esto ya fue una victoria, pero luego decidí avanzar más. Y ahí es donde Gemini vive en sentido figurado me voló los calcetines.
¡Las habilidades de varios idiomas de Gemini Live funcionan a mitad de chat y a mitad de oración!
Rita El Khoury / Android Authority
Como tenía una experiencia tan positiva con diferentes chats en diferentes idiomas, quería ver si Gemini podía manejarme cambiando idiomas a mitad de chat. Así que comencé una simple discusión en inglés, luego cambié al francés, árabe, español, italiano, alemán, y me siguió a través de los seis, nunca sudando. Puedes verlo en el video a continuación.
Mirando hacia atrás en la transcripción, pude ver que realmente entendía cada palabra que dije en cada idioma y cambió sus respuestas en consecuencia.
Pero no pude parar allí, ¿verdad? Ahora, tenía curiosidad por ver si podía manejar el cambio a mitad de la oración. Así que comencé una oración en inglés, la terminé en francés y esperé con la respiración con la respuesta. ¡Y lo consiguió! Probé para otro lado. ¡Éxito!
Honestamente, en este punto, estaba gritando internamente: “¡Hechicería!” Después de vivir con el Asistente de Google durante 10 años y ver que lucha saber la diferencia entre “Bonjour” y “Bone Joke”, había perdido toda esperanza en los algoritmos de reconocimiento de voz y AIS. Pero Géminis Live restauró esa fe. Compruébalo en acción:
Comencé a mezclarme en árabe y español y seguí cambiando a mitad de la oración, y obtuvo todos ellos. A menudo respondía en el primer idioma con el que comencé mi oración, pero su respuesta era una prueba de que entendía toda la pregunta, no solo la primera parte. Incluso abrió mi herida sobre la última falla de Randal Kolo Muani en la última Copa Mundial de la FIFA y me burló de mí sobre la excelente salvación de Emiliano Martínez. Oh, bueno.
Rita El Khoury / Android Authority
Más allá de eso, quería intentar desestabilizar a Gemini en vivo aún más y llevarlo a su límite. Entonces, comencé a hablar como normalmente lo hago con mi familia y amigos, mezclando inglés, francés y árabe en la misma oración: la verdadera forma de hablar libanese, por así decirlo. Para mi sorpresa absoluta de mordisco, recibió a nuestro famoso “Hola, Kifak, CA VA?” Y siguió bien (aparte de la incómoda limitación de acento árabe que mencioné anteriormente).
¿Una palabra en un idioma diferente en medio de toda una oración en inglés? Ningún problema
Finalmente, simplemente fui por el ejemplo más extremo que se me ocurrió: hablar una oración completa en un idioma pero poner una palabra en otra. Para ser justos, así es como hablo con mi esposo el 90% del tiempo. Si estamos usando inglés, algunas palabras nos eludirán, y en el medio de nuestro flujo, solo usamos la palabra francesa o árabe. O si hablamos árabe o francés, intercalamos algunas palabras en los otros idiomas sin pensarlo mucho. Es cómo nuestros cerebros funcionan normalmente, y es por eso que nunca me siento muy cómodo hablando con asistentes de voz porque tengo que forzarme a usar un idioma. Pero Géminis Live lo consiguió.
Le pregunté: “Se llama una planta habaq En árabe, ¿qué es eso en inglés? Me dijo que es Basilio. cibuleta ¿en Inglés?” Dijo cebollino. roquettes“Mientras rodaba mi R, entendía que estaba hablando de hojas de cohetes/rúcula. Y finalmente, cuando pregunté qué”Jozt El Tib“Estaba en inglés, dijo correctamente que es una nuez moscada (sí, estaba en mi cocina e intentaba obtener ideas para las pruebas de Géminis).
Rita El Khoury / Android Authority
Mirando hacia atrás en el registro de chat durante todo esto, la transcripción no es 100% precisa o en el idioma correcto. Está “Haba” y “Rocket” y “Rose to Tibe”, mientras que “Ciboulette” ni siquiera está escrito de ninguna manera. Pero la respuesta demuestra que Gemini Live recibió la palabra correcta en el idioma correcto cada vez.
Y estos no son solo casos extremos. Todas son preguntas que realmente me he hecho o usé el traductor de Google en un momento de mi vida. No puedes creer cuántas veces quiero buscar recetas con calabacín y todo lo que mi cerebro quiere escribir es “calabacín recetas “. Así que solía traducirlo primero, recuerda que es calabacín, luego regresa para hacer mi búsqueda. sfouf (Curcuma Cake) Receta con 3e2de safra (curcuma) y busque lugares para comprar granos para la recomendación de mi padre ba2le (Verde) Planta sin sudar.
Regresé a mis pruebas e intenté las mismas preguntas con el modo de chat de voz de Chatgpt. Mientras consiguió los franceses roquettes y cibuletafalló con el árabe habaq y Jozt El Tibdiciéndome que son fenogrecidos y cominos. Oof. No querría fenogreco en mi pesto.
Después de todas estas pruebas, no puedo, pero no puedo inclinar mi sombrero al equipo de Géminis por clavar el soporte de varios idiomas y hacer que funcione tan impresionantemente bien desde el primer momento. Cada vez que lo empujaba más, me sorprendía ver que todavía me mantenía al día. Este es el primer agente de IA que me entiende de la forma en que hablo naturalmente, por lo que ya no tengo que recordar la palabra exacta en inglés si quiero continuar una conversación con ella. Todavía tengo que transformar un poco mi acento árabe para que me entienda, pero ese es un pequeño precio a pagar por un agente de voz de IA tan versátil. Sin embargo, una vez que comprenda el dialecto libanés como es, será una perfección absoluta.
Generative AI has been with us for over two years now, with most major tech companies trying to take a piece of the action. OpenAI’s ChatGPT may be the product more people know about thanks to its early market advantage, but Microsoft Copilot has the immense power of a multi-trillion dollar company behind it. Seems like a fair enough fight, right? So, with OpenAI and Microsoft both touting their flagship AIs, which one is actually the better bot when it comes to everyday usefulness?
Advertisement
I’ve been putting AIs to the test against one another for a while now. Last year, when pitting ChatGPT against Google Gemini, the latter stole the crown — but only barely. Can Copilot pull off a similar victory? I’ve devised a gauntlet of tests for these AIs, with questions designed to be difficult for large language models. Simply put, the goal is to push these AIs outside of their comfort zones to see which one has the widest range of usability and highlight their limitations.
First, some parameters. I performed all these tests on the free version of both platforms, as that’s how the majority of users will experience them. If you’re one of the people paying $200 a month for the most premium version of ChatGPT, for example, your experience will differ from these results. Two, I used the main chat function for each test unless otherwise stated.
Advertisement
What are Copilot and ChatGPT?
Emre Akkoyun/Shutterstock
You’re likely familiar with OpenAI ChatGPT, and by extension, Microsoft Copilot. They’re AI chatbots that can have conversations, answer questions, and more. On a more technical level, both Copilot and ChatGPT are large language model (LLM) AIs. They are trained on large amounts of text scraped from a variety of sources using a transformer model that calculates the relationships between words.
Advertisement
On the user-facing side, they generate text in response to user-submitted prompts by guessing the probability of each word they output. To heavily oversimplify, they’re kind of like your phone keyboard’s next-word prediction feature, but far, far more complex.
OpenAI makes ChatGPT, while Microsoft makes Copilot. However, Microsoft is a major investor in OpenAI, and because Copilot uses AI models from OpenAI, it has a lot of overlap with ChatGPT. That’s not to say they’re the same thing — Microsoft uses some proprietary models in Copilot (specifically, its Prometheus model) in addition to a custom assortment of OpenAI models, but there’s a lot of ChatGPT under Copilot’s hood. Nevertheless, Microsoft does its own tuning to balance all the different AI gremlins under that hood, so it is distinct enough as a product to merit a head-to-head comparison between the two.
Advertisement
OpenAI, meanwhile, retains a massive user base on ChatGPT, which gives it a big competitive advantage since the more users there are, the more the AI is getting used and trained. Neither company actually turns a profit on AI – OpenAI head Sam Altman says the company is losing money even on $200/month subscribers – but OpenAI remains the market leader by a wide margin. ChatGPT is built into everything from Copilot to Apple’s Siri these days, and it’s widely considered the industry standard.
Copilot is all up in your business
The largest difference between ChatGPT and Copilot is that Microsoft has been cramming Windows and Office products to the gills with its AI. Microsoft was legally ruled a monopoly in the PC operating system market a quarter of a century ago, and things haven’t changed much since then. Windows is by far the most dominant OS on the planet, which means the ability to simply blast a firehose of Copilot features into all of its products is a huge advantage. From your taskbar to your Word documents, Copilot is digging roots deep into the Microsoft ecosystem.
Advertisement
This strategy hasn’t translated into very many users for Copilot, though, and ChatGPT retains by far the largest user base in the AI market. With 28 million active Copilot users in late January compared to over 300 million monthly active users for ChatGPT at the end of 2024, it’s an absolute blowout for OpenAI. Things get even more bleak for Copilot when you realize how many of its users are likely to be using it only because it’s the tool built into their computer by default.
For the rest of this comparison, we’ll focus on the capabilities of each chatbot. Still, the truth is that you can do more with Copilot than you can with ChatGPT, at least if you have a Windows computer that supports it. Both AIs have desktop apps you can run, but Copilot can manipulate your Excel spreadsheets, Word documents, PowerPoint slides, Outlook inbox, and more from directly within those apps.
Advertisement
Basic questions
Anucha Tiemsom/Shutterstock
One of the most common uses for AI is searching up the answers to basic, everyday questions that you’d usually ask Google. Both AIs are pretty good at this, but pretty good is rarely good enough. AI remains prone to hallucinations — confidently stating falsehoods as facts — which can undermine their usefulness. If you have to double check an AI’s answers on Google, you might as well just use Google in the first place.
Advertisement
In any case, I started this head-to-head comparison by prompting both AIs to “Tell me some fun facts about Google Android.” The similarity of the two responses is a clear demonstration of just how much of ChatGPT’s DNA is baked into Copilot. Both told me Android was originally built to run on digital cameras (true), that Google acquired Android in 2005 for $50 million (true), that the first Android-powered phone was the HTC Dream (true – SlashGear covered it at the time), that the original Android logo was a much scarier robot, and that the one we know and love was inspired by bathroom signs (both true).
However, both AIs also made mistakes. Both told me the Android mascot is named Bugdroid. That’s not true. Google officially calls it The Bot, while Bugdroid is a fan-created nickname. Similarly, the Dream was indeed the first consumer Android phone, but the first was a Blackberry-style prototype, something which only ChatGPT pointed that out.
Advertisement
It’s easy to spot such errors when you’re asking about something you know a lot about, but if I’d been asking about something outside my expertise, I’d need to double check everything. In other words, a pretty good rate of accuracy isn’t good enough when it comes to this tech. Both AIs performed decently, but there’s plenty of room for improvement.
Logical reasoning
Khanchit Khirisutchalual/Getty Images
Reasoning has been a major area of focus for all of the major players in the AI space recently. ChatGPT and Copilot have both implemented new reasoning capabilities that supposedly allow the AIs to think more deeply about questions. This language is a bit misleading — AI doesn’t “think,” it just calculates probability based on which words are most closely related in its training data. However, the bots can now show their work, so to speak.
Advertisement
I decided to be a bit glib here. I’ve noticed that AI has trouble answering questions that are very close to common logic puzzles but which differ by being much simpler.
I turned reasoning on in both Copilot and ChatGPT, then asked, “A farmer needs to cross a river to bring his goat to the other side. He also has a pet rock with him. The rock will not eat the goat, but the rock is very significant to the farmer on an emotional level. How can the farmer get himself, the goat, and the rock across in the fewest number of trips?” Human readers will note that there is actually no puzzle here. Since I’ve added no real constraints, the farmer can clearly bring both across in one trip. However, neither AI clued into that fact.
Advertisement
Max Miller/SlashGear
Because it resembles more complex puzzles, Copilot and ChatGPT assumed the problem must be more challenging than it is. They invented a constraint not present in my question — that the boat must not be able to hold both the goat and the rock – and told me that it would take three trips to bring both across. Earning the slight advantage, Copilot ultimately noted that if the boat were larger the farmer could cross the river in one trip.
Max Miller/SlashGear
Creative copy
KitohodkA/Shutterstock
One of the main selling points for large language models like ChatGPT and Copilot has been the generation of creative copy — writing. Well, I happen to have an advanced degree in putting words one after another, so I’ll be the judge of that. In last year’s Gemini versus ChatGPT showdown, I enjoyed making the bots write from the perspective of a little kid asking their mom to let them stay up late and eat cookies. I reused a very similar prompt here, but added a new wrinkle. “My mom says I can have a cookie before bed if I go right to sleep. I want to stay up and have a cookie. Write a letter persuading my mom to let me have both.”
Advertisement
Here, the two chatbots took different tacks. While ChatGPT gave a bullet-pointed list of reasons why our put-upon child should be allowed to have his cookie and stay up, too, Copilot was less didactic. It kept things in all prose, adhering closer to a traditional letter writing style. However, both AIs gave more or less the same argument, claiming that they’d be more well behaved and go to bed without fuss if they got what they wanted. However, ChatGPT did a bit better here, at least in logical terms, because it offered the hypothetical mom something in exchange — the promise of spending that extra time awake as mom-kid quality time.
Max Miller/SlashGear
Max Miller/SlashGear
Copilot gets points here for more closely embodying the perspective of the child in its response, while ChatGPT gets a cookie for using slightly better logic. Ultimately, though, neither of these letters felt persuasive enough to be very convincing to any actual parent.
Advertisement
The haiku test
Marekuliasz/Getty Images
When I compared ChatGPT to Google Gemini almost a year ago, I pointed out their limitations by asking both to write a haiku. As a result of the way LLMs work, neither AI could do so correctly. AI doesn’t actually know anything about the words it spits out, and that means they don’t know what a syllable is. Consequently, they can’t write a haiku, which follows a five-seven-five syllabic verse pattern So, has anything changed a year later?
Advertisement
Maybe someone at OpenAI saw that comparison, or at least I’d like to think so. When prompted to “write a haiku about Slashgear.com,” ChatGPT did so with no problem, writing the following:
“Tech news on the rise,
gadgets, cars, and future dreams,
SlashGear lights the way.”
It’s not going to win any awards, but it qualifies as a haiku, and that’s progress. I’m no AI developer, so I have no clue what changed behind the scenes to enable haiku writing here. Either way, it’s good to see improvement.
Copilot stalled out when I gave it the same prompt. It wouldn’t write its haiku until I signed out of my Microsoft account and reloaded the page, at which point it gave me this:
“Gadget whispers loud,
Innovation on the rise,
Advertisement
SlashGear guides the way.”
It’s interesting to see how both AIs repeat phrases here, such as “on the rise” and “lights/guides the way.” I’d guess that Copilot defaults to ChatGPT for this, and that’s why the poems are similar. Neither poem was particularly beautiful or evocative, but both bots passed this test, and both showed a basic understanding of what SlashGear is, which was integral to the prompt.
Problem solving
Miragec/Getty Images
As you may have heard, AIs can often pass the bar exam. However, they can’t be lawyers, as lawyers who’ve tried to use them have found out the hard way. So, with those mixed results in mind, how do ChatGPT and Copilot do with logistically complex problem solving puzzles of the kind that routinely stump LSAT test takers?
Advertisement
Rather than using actual LSAT practice questions, which are copyrighted and have probably already been scraped to train the AIs, I came up with a few of my own. The first was, “Fred is a used car salesman. One day, a family comes in looking to buy a car he hasn’t had time to inspect, but he tells them there’s nothing wrong with it. After all, none of the cars he’s sold ever had issues in the past. What is the fallacy in Fred’s logic, if any?” ChatGPT and Copilot both correctly identified that Fred has fallen victim to the hasty generalization fallacy.
The next question was, “On the way home from Fred’s dealership, the brakes fail in the car he sold, and several people are killed in a collision. Fred claims he’s not at fault, since his cars are sold as is and become the owner’s responsibility once paperwork is signed. The surviving family member claims he is at fault, since the family would not have purchased the vehicle had they known the brakes were faulty. Based only on logic, who is right?”
Advertisement
The responses to this more subjective question differed, with Copilot asserting that both parties have strong claims, while ChatGPT sided with the family, pointing out that Fred’s position relies on “contractual technicalities,” while the family can prove causality.
Max Miller/SlashGear
Max Miller/SlashGear
Code writing
khunkornStudio/Shutterstock
One of the more useful applications of AI is thought to be coding. Especially when it comes to the common but tedious chunks of code that developers routinely find themselves writing, it’s been posited that it’s much easier to offload that work to an AI, leaving the human coder with more time to write the new and complex code for the specific project they’re working on. I’m no developer, so take this particular test with a grain of salt. At the same time, though, these tools should supposedly lower the barrier to entry for coding noobs like me.
Advertisement
Common wisdom dictates that writers should have their own websites, but I’ve been putting off the creation of one. With that in mind, I asked both AIs to, “Generate HTML for a personal website for a writer named Max Miller. Give the website a retro aesthetic and color scheme, with an About Me section with a headshot and text field, a Publications section where I can link out to published work, and a Contact section where I can add social media and email links.”
At this point, I found out ChatGPT now has a code editing suite called Canvas. It allowed me to play with and preview the code right in my browser. Taste is subjective, but ChatGPT also generated what I would argue is the better looking website, using nicer looking margins and a dark mode style color scheme. Both, however, fulfilled the prompt more or less to a T, each generating a very similar page layout. Have a look for yourself below.
Advertisement
Max Miller/SlashGear
Max Miller/SlashGear
Real-time information
Oscar Wong/Getty Images
When I tested ChatGPT against Google Gemini last year, only the latter could give me up to date information on recent events such as sports scores. I asked both how my local hockey team, the Colorado Avalanche, are doing this season, and both gave me an overview that appears to be correct. Both ChatGPT and Copilot provided me with current rankings and a few highlights from the season, but ChatGPT was more detailed. It told me some player stats that Copilot didn’t bother with.
Advertisement
I followed up by asking who they’re playing next. Both AIs correctly understood the “they” in my question to mean the Avalanche. I’m writing this section at 5:00 p.m. on Friday, February 28, and both AIs informed me about tonight’s game, which takes place against the Minnesota Wild at Ball Arena in Denver two hours from the time of this writing. Interestingly, Copilot attached a Ticketmaster advertisement to the end of its response. ChatGPT, meanwhile, gave me much more useful information by showing me the upcoming schedule for not only tonight’s game but several thereafter. It also appended a link to the official Avalanche website.
Things got far more stark when I asked about breaking news. As of this writing, authorities are investigating the shocking deaths of legendary actor Gene Hackman and his wife. When I asked, “What’s the latest on the investigation into Gene Hackman,” Copilot gave me the basics of the story and told me autopsy and toxicology tests are still pending. ChatGPT, on the other hand, had no idea what I was talking about.
Advertisement
Image based prompting
oatakoi/Shutterstock
Using multimodal AI — the ability of an AI to work with multiple forms of media — both ChatGPT and Copilot can incorporate user submitted pictures and other files into a prompt. I decided to start simple for this test. On my bed, I arranged a Samsung Galaxy S23 Ultra, a Samsung portable SSD, a Swiss army multitool, lip balm, hand cream, a eyeglass case, a beaded bracelet, Samsung Galaxy Buds, and my wallet. I then took a photo of the assortment and uploaded it to both AIs with the prompt, “Identify the objects in this photo.”
Advertisement
Both AIs did okay here, but ChatGPT blew Copilot away by a country mile. Whereas Copilot misidentified the SSD as a power bank and the glasses case for deodorant, ChatGPT identified everything accurately.
Max Miller/SlashGear
Max Miller/SlashGear
It was time to up the stakes. I took a photo of a generic Prilosec pill and asked both AIs, “What kind of pill is this?” If these AIs misidentified the medication, that could have dire effects for an overly trusting user. Thankfully, both AIs declined to make a guess when faced with the blank, red pill. Sometimes, it’s better to be useless than wrong.
Lastly, I took a photo of two rows on my bookshelf, containing 78 books, and ensuring all the text in the photo was legible, then asked the AIs, “Which of these books should I read if I have an interest in dystopian fiction?” Again, ChatGPT strong armed Copilot into submission. Neither impressed me, though. Whereas Copilot suggested “Agency” by William Gibson, ignoring everything else and hallucinating a book I don’t own, ChatGPT identified “Agency,” “The Parable of the Sower” by Octavia Butler, and “Appleseed” by Matt Bell. However, it hallucinated several more titles not on the shelf.
Advertisement
Max Miller/SlashGear
Max Miller/SlashGear
Mobile apps
Robert Way/Shutterstock
Lastly, both Copilot and ChatGPT are available in mobile form, with apps available in the Apple App Store and Google Play Store. On the surface, both apps look pretty similar, with a text field at the bottom and buttons to enter a voice mode. Since both apps are quite similar, it makes sense to focus this comparison on where they differ — which is in exactly one way
Advertisement
Copilot’s standout mobile app feature is Copilot Daily, an AI news summary. It begins with a fun fact before launching into the daily news, presumably summarizing the articles it cites as sources in the bottom of the screen for each item. Based on my knowledge of the events it summarized, it seems relatively accurate. However, it’s not as if there’s a shortage of news summary features created by actual journalists. You can find them from every major news outlet.
However, the apps are otherwise nearly carbon copies of their web interfaces. Both apps are essentially just wrappers for that interface, since it’s not as if your phone has the power to run these models locally. Unless you’re very excited to hear a robot read the news to you, the ChatGPT app is the better option simply because ChatGPT has more built in features within its interface.
Advertisement
Conclusion: ChatGPT beats Copilot by a hair, but neither AI is great
Stock all/Shutterstock
If you absolutely had to choose either Microsoft Copilot or ChatGPT, the latter remains the better option for most people. While Copilot isn’t exactly like its more popular peer, it’s using enough of OpenAI’s models that you’re better off with the original flavor. Copilot is a lot like Bing — doing basically the same thing as the bigger name brand, but just a little bit worse.
Advertisement
With that said, it’s a stretch to call either of these chatbots smart or useful. Frankly, with hundreds of billions of dollars now sunk into these two AIs alone by both OpenAI and Microsoft, how is it that Copilot and ChatGPT still can’t nail the basics? Microsoft plans to spend $80 billion on AI data centers this year, while OpenAI is seeking up to $7 trillion for new projects.
Yes, that’s trillion with a T to fund a technology that can’t get basic facts right or understand how boats work. When competitors like DeepSeek are doing the same things for a microscopic fraction of that investment cost, these products feel deflatingly unimpressive in comparison. Markets aren’t a consumer concern, it’s true, but some perspective feels necessary here.
Advertisement
Look, if all you need is a robot that can quickly write you an email, both ChatGPT and Copilot will happily crank out slop copy that anyone can tell was written by AI. If you need a smart thesaurus, or sports scores, or a bit of simple code, they’ve got you covered. In a tight race, ChatGPT does a few things marginally better than Copilot. Still, for any task where accuracy matters, neither are reliable enough to count on.
Cuando se trata de mantenerse al tanto de su salud, existe una gran tecnología que puede darle un impulso. Los mejores rastreadores de acondicionamiento físico pueden ayudarlo a mantenerse al tanto de su conteo y ejercicio, mientras que las mejores escalas inteligentes pueden ayudarlo a monitorear métricas como la composición corporal.
Pero, ¿puede usar IA para mantenerse en forma y saludable, perder peso o desarrollar músculo? Como escritor de salud y acondicionamiento físico experimentado con más de una década usando tecnología de fitness como Apple Watch, he estado poniendo a ChatGPT para usar como parte de mi régimen de salud y estado físico.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.