Connect with us

Noticias

Justin Bedecarre Helped OpenAI Find an Office — Now He’s Helping JLL With AI Clients – Commercial Observer

Published

on

Unless you’ve been living under a rock, you know that generative artificial intelligence, or gen AI, is the next big thing in tech.

And that is enough to make it one of the most closely watched strains of business for the highly challenged commercial real estate industry — more specifically, for office landlords. With acres of space to fill and with loans on buildings coming due, it’s a key potential tenant for that space.

SEE ALSO: Brooklyn Retail Remains Resilient, Thanks to Smaller Retailers, Report Finds

Which is why some eyebrows in real estate went skyward when it became known that none of the major property brokerages was representing OpenAI, the company behind gen AI giant ChatGPT, in its New York office quest. 

It was represented instead by San Francisco-based Raise Commercial Real Estate, an 8-year-old boutique brokerage that specializes in AI and other cutting-edge tech companies and their real estate needs. OpenAI’s search came to an end in October when the company signed a lease for 90,000 square feet at the Puck Building in SoHo. By the time it actually did the deal, Newmark was OpenAI’s brokerage house.

Then, on Oct. 1, JLL (JLL) announced its intent to buy Raise. JLL said Raise’s cloud-based platform would enable it to serve clients demanding the latest in tech-related services. Justin Bedecarre, co-founder and CEO of Raise, would become JLL’s head of Americas leasing innovation, reporting to Andy Poppink, JLL’s CEO for markets advisory and onetime captain of Stanford University’s basketball team.

According to data from JLL senior analyst Chris Pham, JLL repped a little less than 60 percent of all AI deals in the San Francisco Bay area from 2023 through the first three quarters of this year. So, the acquisition of Raise enhances JLL in this area.

Beddecarre and Felipe Gomez-Kraus, a former Raise colleague and the executive managing director in brokerage in JLL’s San Francisco office, hopped on Microsoft Teams in early December to explain what an AI-empowered world for commercial real estate might look like.

This interview has been edited for length and clarity.

Commercial Observer: What happened with Raise Commercial, and what are you doing now?
Justin Bedecarre: Raise was celebrated for many years as a technology-powered commercial real estate brokerage and, as of a couple of months ago, we joined forces with JLL, so now we’re all one JLL.

Is this a kind of ‘If you can’t beat em, join em’ situation?
Bedecarre: We saw an opportunity to have the best of both worlds by joining forces with JLL. We complement each other very well with JLL’s scale and our technology platform, and so it was very much a positive sum mentality by coming together.

So what are you doing now for JLL?
Bedecarre: We are doing a lot of the same things, but at a bigger scale. We’re serving a lot of AI companies with our platform and with our broker services. We’re scaling our technology platform across the leasing business, and so it’s a lot of the same but at a bigger scale. And, with what we’ve done in the Bay Area in particular — commanding, you know, almost two-thirds of AI companies, helping them to client build and manage offices — we’re off to the races.

Felipe Gomez-Kraus: When we were building Raise, it was going to allow us to serve clients in a digital-first collaborative workplace, which was the first of its kind. So, coming together with JLL was also in order to make it so that JLL clients can benefit from having a collaborative workplace where they can interact with the market and with their teams nationally and globally. When Justin says we’re doing the same, it is really to bring that platform to the brokerage teams and the clients of JLL, and to continue to provide the type of service that should be happening in 2025.

Did you guys find that JLL among the other real estate services firms was ahead in terms of understanding tech and cutting-edge startups and what they needed from their real estate?
Bedecarre: Without question — both on the decision and execution around getting technology to our brokers and our clients, but also in the clients we serve. We cover more market share around AI companies than any other firm. It’s definitely the best of both worlds in terms of what we’re able to do here with all of our now-JLL colleagues to serve the best companies in the world.  

Isn’t it risky for a big legacy firm like JLL, which is dealing with the overall reduction in demand for offices, to make this kind of acquisition?

Bedecarre: I would posit that it’s a risk for a quote-unquote legacy firm to not try to innovate and meet the continued demands of companies that are digital first or digital native; and that are all feeling the impacts of technology writ large, including that of AI.

So I would say that stagnation is a reversal of fortune for most legacy companies. One of the reasons we came together with JLL, and were so happy to do so, was the very forward-thinking nature of the company. And that’s also reflected in the practice groups that are developed to really understand the needs of occupiers of tomorrow, landlords of tomorrow, and how to best position both assets and the occupants for the right match.

Gomez-Kraus: The foundation of your question is the reduction in demand. I would actually counter that and say that, particularly around AI companies, the demand has gone up. We’re really looking at the future and the growth areas for office occupancy, and that’s very much the case with AI coming. 

But what with traditional, non-tech companies like banks and other financial and professional services firms reducing their demand and trying for fancier offices, and since work from home isn’t entirely going away, can AI replace traditional office demand?

FGK: You describe the flight to quality, which is absolutely what we’re seeing. Workplaces today, more than ever, need to be well located in the right transit lines, amenitized properly in the common spaces. And the workplaces themselves need to be thoughtfully designed for how work happens today. We believe that that will be a part of the way that the world works moving forward.

But, with that, I often hear it said, “You build a church for Sundays.” That means that as long as you’re bringing together people for any period of time to do whatever their best work might be, it should be in a space that is well designed, whether it’s individual head-down work or collaborative spaces, as well as other things that come into play as a reward for talent. 

You talk about legacy firms, financial services, accounting firms and the like — they are competing for talent with a broader range of companies. I don’t think it is in many of those companies’ best interests to be in secondary markets or submarkets and in Class B, B-minus buildings. It’s demonstrated that this is one of the factors to hire and retain talent. 

So we don’t think that AI is going to replace the reduction in footprint. But companies that existed pre-pandemic, they are absolutely rightsizing and flying to quality. Another thing that’s happening is that there’s a resurgence of net new companies that are being built, and those companies that are being built from today forward are being funded with an eye toward the velocity and intensity and the creativity that happens when people are together and they’re not forced to start as they were in the pandemic, fully remote.         

Lately JLL’s stock has been on a tear. Do you think that’s at least in part due to the notion that JLL is ahead of the game in implementing AI and understanding what’s going on in high tech?

Bedecarre: There are a lot of factors that go into why we joined JLL: the culture, the vision, and how the firm wants to serve its brokers and our clients and our teams. It’s been incredibly positive; the talent density is extremely high at JLL. And we serve the best companies in the world, both investors and landlords and tenants.

What do you think is the most important thing landlords need to know in attracting cutting-edge tech companies to their offices?

Gomez-Kraus: There’s a variety of ways that you could position an asset to make it more attractive for the types of companies that are excited to bring people together to work, and that want to make those workplaces inspiring and reflective of their culture. This is outside of the building’s location, which obviously is paramount and is even more important today.

In 2019 and 2020, when we were at sub-3 percent vacancy in San Francisco, there were buildings in secondary submarkets that might have been on an island, but had to be considered because there was no real space available of any size downtown. I mean figurative islands that are away from transit routes, which allow San Francisco to draw people in from the East Bay or the South Bay.

The things that landlords can do from an amenitization standpoint — bringing in thoughtfully curated food and beverage options, health and wellness — is incredibly important to this young cohort and the companies that want to keep these, let’s say, AI-specific researchers who do very heavy work.

It’s in a company’s best interest to make it as comfortable for that person to spend a long period of time at the office or in its surroundings, which means not just a one-to-one desk ratio, but rather spaces where that person can go, be inspired and motivated, sit in a nontraditional work space, collaborate with colleagues in scrum rooms, or in what they call “me space” versus “we space.” You see from a design standpoint it’s looking a lot more like a hotel lobby than a traditional office.

This smacks of the startup environment in 2014, `15, and `16, in San Francisco, where there was ample access to funding for the right companies. That fuels headcount growth and office needs, though today’s hybrid work formats change some of those leasing decisions.

I think that term length is important. For the smaller-sized offices, I think they should try to do everything to reduce friction, and that can represent itself in creating spec suites that are well designed, furnished, and reduce friction to get in, but then also keeping term length on the shorter side. As they become larger, and want to both plant a flag and have more visibility, that could be in the same building or in a neighboring building.

Isn’t energy use also an issue, especially for tech companies?

Bedecarre: Not necessarily for your typical tech company, or even largely AI companies. Your typical office user might be manufacturing things in the office. Some of our clients build satellites that are literally in space right now. They need extra power to build the thing in their office.

When you’re thinking about tech companies and AI companies, their large language models  and whatnot are done off site, in separate facilities. Those spaces are designed specifically. But for the typical office user versus an AI company, there’s not an exceptional difference in need for power.

Now you guys were in the middle of OpenAI’s search for space in New York. Can you talk about that?

Gomez-Kraus: We can’t speak about individual clients, but I think one of the things that you’ll see across the talent density for companies that are building the technology of tomorrow is that we’re seeing again what we saw in the runup to 2019, 2020 — where the talent density in the Bay Area, and the level of competition for that talent, causes many of these companies to go look in other incredible cities like New York and London and elsewhere.

How important is planting a flag in New York for AI in general?

Bedecarre: I don’t think having a space for its own sake anywhere in particular is important to these companies, but the drivers for putting an office location anywhere are absolutely related to the available density of talent — and potentially to the density of the firms and organizations to which they are selling and where they’re finding their partners.

Gomez-Kraus: The only  thing I would add to that is the concentration of investment dollars. After the Bay Area, New York provides the highest concentration of funding going to startups and AI companies. That’s what creates these ecosystems.

What is there specific about AI that you think landlords should know?

Gomez-Kraus: There are a lot of similarities between the occupier profile of an AI company and what was seen when the Googles and the Metas of the world were in their run-up. They were building a technology of tomorrow. 

They firmly believe that people are better together for the philosophy of what they’re developing, the creativity that is born in it. They are committed to delivering excellent spaces, not only for them to inspire the people that they have, but also from a recruiting standpoint, because, make no bones about it, much of this is rooted in the war for talent, just as it was in 2013.

One of the ways that a company could demonstrate their commitment to their employee back then — beyond the stock options — was truly to have a holistic approach to their health and wellness, their experience, their commutes, their comfort. A lot of that is reflected in the quality of the workplaces that they deliver.

One last thing: What is going on in San Francisco? It seems like we hear that San Francisco has more vacant office than any central business district across the country, and its problems still linger.

Bedecarre: If you know anyone who has the capital to invest, there’s probably not a better bet than San Francisco.

I care a lot about the city and the region as a whole. We’ve had to reinvent ourselves many times over. Looking back from the dot-com crash, every time we rebounded. And that’s very much the case now. More people are coming back to the office. Those numbers just keep on going up. Also, the political environment has improved immensely for businesses to be starting and growing in San Francisco.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

La investigación profunda de Openai tiene más resistencia de investigación que tú, pero todavía está mal la mitad del tiempo

Published

on

Opadai

Lo último en inteligencia artificial generativa incluye agentes de IA que pueden acceder a la web para encontrar respuestas a las preguntas. Si bien es prometedora, la tecnología de agente es en gran medida un trabajo en progreso.

En un artículo publicado la semana pasada, los investigadores de Operai relatan cómo la tecnología de investigación profunda de la compañía, que se construyó para usar la web, funciona mucho mejor que los otros modelos de Openai al responder preguntas web. También lo hace mucho mejor que los humanos en tareas que requieren horas de búsqueda.

También: ¿Qué son los agentes de IA? Cómo acceder a un equipo de asistentes personalizados

Pero la investigación profunda todavía tropieza casi la mitad del tiempo.

La nueva prueba de OpenAI sugiere que la investigación profunda puede ser más tenaz y obstinada en la búsqueda de una respuesta que los investigadores humanos para algunas tareas, pero aún no se le ocurre una respuesta a menudo.

Llamada Browsecomp, la prueba es descrita por los autores Jason Wei y el equipo como “un punto de referencia simple pero desafiante para medir la capacidad de los agentes para navegar por la web”.

La premisa es que los agentes de IA, lo que significa, modelos de IA que pueden navegar por “miles de páginas web”, podrían ser mucho más ingeniosos que los humanos, que tienen memoria limitada, se fatigan navegando por la red y “solo pueden atender una cosa a la vez y no pueden ser paralelizadas,” significa que no pueden dirigir sus cerebros a operar en datos en transmisiones paralelos de pensamiento.

“La inteligencia de máquinas, por otro lado, tiene un retiro mucho más extenso y puede operar incansablemente sin distraerse”, escribe Wei y equipo.

También: La investigación profunda de Openai puede ahorrarle horas de trabajo, y ahora es mucho más barato acceder

Wei y el equipo se basaron en su trabajo anterior del año pasado, “Simpleq & A”, que prueba la capacidad de los modelos de IA para responder “preguntas cortas y de búsqueda de hechos”. Las preguntas cubrieron trivia de televisión y película, ciencia, historia, música, videojuegos, política y otros temas.

El conjunto de browsecomp de 1.266 preguntas está diseñado para ir más allá de la recuperación de información simple, relacionan los autores. En cambio, son preguntas para las cuales es difícil encontrar las respuestas, o, como lo expresan, “desafiantes porque requieren buscar a través de un gran espacio de posibles respuestas y igualarlas con limitaciones planteadas en la pregunta” e “información difícil de encontrar y profundamente entrelazada en la web”.

Por ejemplo, un par de preguntas y respuestas es el siguiente:

Identifique el título de una publicación de investigación publicada antes de junio de 2023, que menciona tradiciones culturales, procesos científicos e innovaciones culinarias. Es coautor de tres individuos: uno de ellos fue profesor asistente en Bengala Occidental y otro tiene un Ph.D.
(Respuesta: Los fundamentos de la fabricación de pan: la ciencia del pan)

Hacen hincapié en que tal pregunta es fácil de verificar porque la respuesta está contenida en una sola frase que es “autónoma”.

OpenAI-2025-Browsecomp-Sample-Question-Response pares

Opadai

Las preguntas y respuestas fueron desarrolladas por “entrenadores” humanos, y fueron seleccionados como imposibles de resolver con solo el chatgpt de Openai, con o sin habilidades de navegación. Las preguntas también eran imposibles para una “versión temprana” de una investigación profunda.

Demostrando cuán débiles son los humanos para buscar en la web, primero probaron a los humanos que estaban “familiarizados con el conjunto de datos” para responder las preguntas.

OpenAI-2025-Humans-Give-Up más de las preguntas

Opadai

Los resultados no fueron buenos para los humanos. Para el 70% de las preguntas, los humanos se rindieron después de dos horas de esfuerzo. Solo respondieron alrededor del 30% de las preguntas, y por el 14% de sus respuestas propuestas, las sugerencias de los humanos no coincidir con la respuesta real.

Wei y el equipo plantean la hipótesis de que los humanos con mayores habilidades de búsqueda podrían hacerlo mejor: “Es posible que muchos de los problemas que renunciaran sean solucionables por profesionales experimentados (por ejemplo, detectives o periodistas de investigación) con tiempo suficiente”.

OPERAI-2025-BROWSECOMP-ACCRACIÓN Y CALIBRACIÓN

Opadai

Después de los humanos, probaron una investigación profunda contra el GPT-4O de Openai (con y sin habilidades de navegación), GPT-4.5 y el modelo O1.

Los resultados fueron abismales. “GPT-4O y GPT-4.5 alcanzaron la precisión cercana a cero, destacando la dificultad del punto de referencia”, escriben. “Sin un razonamiento sólido o un uso de herramientas, los modelos no pueden recuperar los tipos de objetivos oscuros y múltiples hechos de navegación”.

O1 le fue mejor, lo cual “[suggests] que algunas respuestas de Browsecomps pueden aparecer a través de la inferencia sobre el conocimiento interno “.

También: AI desata estafas más avanzadas. Esto es lo que debe tener en cuenta (y cómo mantenerse protegido)

Con un puntaje del 51.5%, la investigación profunda fue “significativamente mejor” y “es particularmente efectivo para responder a las preguntas nicho y no intuitivas que requieren navegar por numerosos sitios web”, escriben Wei y Team.

Sin embargo, también encontraron que GPT-4O que usa navegación e investigación profunda podría errar al estar “demasiado confiado” sobre las respuestas incorrectas, que se conoce como un error de calibración.

“Los modelos con capacidades de navegación como GPT-4O con navegación e investigación profunda exhiben un error de calibración más alto”, escriben, “, lo que sugiere que el acceso a las herramientas web puede aumentar la confianza del modelo en respuestas incorrectas. Esto se alinea con las observaciones de que la investigación profunda lucha con la calibración de confianza y, a menudo, no puede transmitir la incertidumbre con precisión en el presente”.

Para corregir el error de calibración, hicieron otra prueba con una investigación profunda, en la que el modelo tuvo que generar hasta 64 respuestas a cada pregunta. Luego, hicieron que el modelo eligiera lo mejor de ellos. Cuando lo hizo, la investigación profunda fue bastante buena para elegir la respuesta correcta entre todas las propuestas.

OpenAI-2025-mejor de-n-scaling-accions

Opadai

Eso, escriba Wei y Team, sugiere que “el modelo con frecuencia ‘sabe’ cuando es correcto, incluso si lucha por expresar esa certeza como una probabilidad calibrada”.

También: El último chip de Google se trata de reducir un gran costo oculto en AI

También señalan que el éxito de la investigación profunda mejora con más computación agregada cuando busca la web. Dicho de otra manera, “el rendimiento escala suavemente en función de la cantidad de cómputo de tiempo de prueba utilizado”. Eso se cuadraba con una tendencia creciente de lanzar más chips de GPU a la tarea de inferencia.

escala de accesorios de accesorios operai-2025-Browsecomp

Opadai

Wei y el equipo no ofrecen directamente ninguna hipótesis sobre por qué la investigación profunda falla casi la mitad del tiempo, pero la respuesta implícita está en la escala de su capacidad con más cálculo. A medida que ejecutan tareas más paralelas y solicitan al modelo que evalúe múltiples respuestas, la precisión escala más allá del 75% de las preguntas respondidas.

La implicación es que es esencial elegir estrategias que obligen al modelo a evaluar sus propios esfuerzos en lugar de simplemente perseguir una sola respuesta. Sin esa etapa de evaluación, el modelo lucha una buena parte del tiempo.

Además: con los modelos de IA que se golpean cada punto de referencia, es hora de la evaluación humana

Un gran agujero en Browsecomps, reconocen los autores, es que se limita a preguntas que son fáciles de analizar para la computadora y cuyas respuestas son fáciles de verificar. Ninguna de las 1.266 preguntas incluyó “respuestas largas o capacidad para resolver la ambigüedad en las consultas de los usuarios”.

Como resultado, el browsecompl, argumentan, prueba las funciones “centrales” de los agentes de IA, pero no es integral. “El modelo debe ser muy competente para localizar piezas de información difíciles de encontrar, pero no está garantizado que esto se generalice a todas las tareas que requieren navegación”.

La investigación profunda está disponible para los usuarios de las suscripciones PLUS y Pro Operai.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

Continue Reading

Noticias

Informe de chatgpt para marketing

Published

on

Continue Reading

Noticias

Operai supera a Deepseek en el razonamiento a nivel de oración

Published

on

Chatgpt y otros chatbots de IA basados ​​en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.

Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.

Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.

La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.

Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.

Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.

Oración específica

La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.

En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.

Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.

Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.

Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.

https://www.youtube.com/watch?v=kqzzymhre0u

Cómo Deepseek R1 y OpenAI O1 se comparan generalmente con los problemas lógicos.

Prueba de citas y razonamiento

Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.

Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.

Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.

Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.

En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.

Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.

OpenAi tiene la ventaja

En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.

Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.

Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.

El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.

Continue Reading

Trending