Noticias
Probando la capacidad de Bard y ChatGPT para escribir ensayos sobre dilemas éticos: un estudio transversal
En este estudio, comparamos las características lingüísticas psicométricas de los ensayos escritos por estudiantes sobre dilemas éticos personales con las de ensayos de IA equivalentes generados por indicaciones diseñadas con palabras clave de los ensayos originales. Descubrimos que el último grupo generalmente tenía más palabras relacionadas con el afecto, específicamente aquellas que exhibían emociones positivas. Por el contrario, los ensayos escritos por los estudiantes tenían más lenguaje relacionado con lo cognitivo y más palabras por oración. Los dos LLM utilizados para generar ensayos (Bard y ChatGPT) también diferían entre sí: el primero generaba textos más parecidos a los humanos y el segundo generaba ensayos con palabras más complejas frecuentemente relacionadas con el pensamiento analítico y que a menudo se presentaban con más autenticidad. Sin embargo, encontramos que un tercio de los ensayos entregados por los estudiantes ya estaban total o parcialmente escritos por un LLM. Esto fue confirmado por análisis adicionales, donde observamos diferencias menos o menos significativas entre dichos ensayos y los generados totalmente por IA que entre los ensayos “verdaderos” escritos por estudiantes y los de IA, lo que indica una mayor similitud. Además, como los ensayos coescritos por IA tenían menor autenticidad, pero puntuaciones de pensamiento analítico más altas y una mayor prevalencia de “palabras importantes”, es probable que, de hecho, fueran generados por IA, pero posteriormente editados hasta cierto punto. Además, confirmamos que los ensayos escritos por IA utilizaron más lenguaje relacionado con el afecto, la autenticidad y el pensamiento analítico en comparación con los ensayos escritos íntegramente por estudiantes después de eliminar del análisis los ensayos escritos conjuntamente por IA.
Hasta donde sabemos, nuestro estudio es el primero en comparar cuantitativamente las características psicométricas de ensayos generados por humanos y por IA sobre las experiencias personales de estudiantes de medicina con un dilema ético de la vida real que enfrentaron dentro de un contexto educativo o profesional. Otros estudios que compararon textos escritos por humanos y generados por LLM se centraron en textos argumentativos o reflexivos sobre un conjunto diverso de temas.15,21 o la capacidad de los LLM para escribir en ciertos estilos de personalidad, independientemente de un tema específico22.
Por ejemplo, Jiang et al.22 demostró que ChatGPT puede emular con éxito ciertos rasgos de personalidad dentro del modelo de personalidad de los Cinco Grandes, lo que puede explicar parcialmente por qué los LLM parecían ser muy competentes al escribir sobre temas emocionales y matizados, como en nuestro estudio. De lo contrario, nuestro hallazgo de que los ensayos escritos por IA tenían un lenguaje más analítico no es sorprendente, como Herbold et al.15 Anteriormente descubrió que los ensayos escritos por ChatGPT superaban a los escritos por humanos en la medida en que utilizaban una estructura y narrativa más académicamente deseable. Asimismo, al comparar el diálogo humano con uno generado por ChatGPT, Sandler et al.23 Descubrió que el LLM también tenía niveles más altos de pensamiento analítico. Aunque no realizamos análisis cualitativos o cuantitativos para explorar esto, notamos que los ensayos generados por IA tenían una estructura formulada, probablemente influenciada por la indicación que indicaba al LLM que escribiera “un ensayo”, similar a lo que Herbold et al.15 encontrados (aunque se centraron en ensayos más argumentativos y estructurados). Esto incluía, entre otras cosas, el uso de frases fijas como “Durante mis estudios de medicina” para abrir ensayos y “En conclusión” para cerrarlos (Archivo complementario 2). Si las personas que evalúan ensayos en contextos educativos encuentran un lenguaje tan formulado, podría indicar que los autores utilizaron algún tipo de herramienta basada en IA o LLM. Este hallazgo también es similar a lo que Li et al.21 identificado en su estudio, donde investigaron la capacidad de los LLM para escribir textos reflexivos sobre una amplia gama de temas. Los autores notaron que las reflexiones generadas por ChatGPT tenían una menor variabilidad en términos de la cantidad de oraciones, palabras únicas y la cantidad total de palabras en comparación con las escritas por los estudiantes.
Mientras tanto, el hallazgo de que los ensayos escritos por IA tienden a tener un lenguaje más emocionalmente positivo y auténtico en comparación con los ensayos escritos por estudiantes es algo poco intuitivo. Esto podría interpretarse en función de los resultados de un experimento anterior en el que un servicio de chat de apoyo emocional en línea que utilizaba GPT-3 se percibía como un mayor apoyo emocional que las respuestas humanas. Sin embargo, una vez que los participantes aprendieron que estas respuestas no fueron generadas por humanos, cualquier beneficio que hubieran obtenido de estos servicios desapareció.24. Esto está en línea con lo que Jiang et al. observado, también22. Planteamos la hipótesis (aunque no podemos confirmarlo) de que los estudiantes fueron más reservados al expresar sus emociones y posturas debido a la ambigüedad ética de sus situaciones de la vida real, lo que resultó en puntuaciones más bajas en autenticidad y afecto/tono. Mientras que Sandler et al.23 no observaron una diferencia en el afecto entre el diálogo humano y el generado por ChatGTP, sí observaron que este último tenía valores más altos para el tono emocional positivo y los procesos sociales. Esto está en línea con nuestros resultados, lo que respalda sus hallazgos de que los LLM podrían percibirse como “más humanos que humanos”.23. Este tono positivo que observamos en los ensayos escritos por IA podría sugerir que proporcionaron “mejores escenarios” idealizados y respuestas más moralmente deseables, con resultados generalmente más positivos a los dilemas éticos. Finalmente, las diferencias lingüísticas entre Bard y ChatGPT observadas en nuestro estudio, especialmente la mayor autenticidad y la mayor frecuencia de palabras complejas observadas en las puntuaciones LIWC de los ensayos generados por ChatGPT, pueden explicarse por comparaciones anteriores de estos dos LLM, donde ChatGPT parecía funcionar. mejor que Bard para adaptarse a diferentes contextos y realizar tareas más complejas e intensivas, al mismo tiempo que tiene mayores capacidades generales para redactar textos25,26,27,28,29. Sin embargo, nuestra observación de que los ensayos generados por ChatGPT tienen valores de autenticidad más altos que los escritos por humanos contrasta con los hallazgos de Sandler et al.23aunque la diferencia que observamos fue marginalmente significativa en el análisis completo e inexistente después de comparar ensayos escritos por estudiantes reales con sus equivalentes generados por IA.
Nuestros hallazgos indican que las herramientas basadas en IA pueden ser bastante eficientes a la hora de producir ensayos similares a los humanos relacionados con la ética y la escritura sobre experiencias y opiniones personales, lo que concuerda con las observaciones de Sandler y sus colegas.23. Las diferencias psicométricas observadas entre la IA y los ensayos escritos por estudiantes se volvieron mucho más matizadas en nuestros subanálisis de ensayos coescritos por IA, lo que indica que probablemente fueron modificados por los estudiantes después de que fueron generados por un LLM. A medida que las instituciones de educación superior y las iniciativas globales avanzan hacia la implementación de regulaciones para el uso de herramientas de escritura basadas en IA30,31implementar salvaguardias efectivas será una máxima prioridad25. El uso de software de detección es otra posibilidad, pero puede no garantizar completamente que los ensayos generados por IA suficientemente modificados se identifiquen con éxito. También es probable que los humanos sean capaces de reconocer por sí mismos los ensayos escritos por IA.32 y que el software de detección puede ser simplemente una herramienta complementaria para mejorar o confirmar sus observaciones. Así, por ejemplo, lo utilizamos en nuestro estudio, ya que nos permitió confirmar nuestras suposiciones de que algunos de los ensayos escritos por los estudiantes fueron generados por IA. Esta cuestión podría examinarse en investigaciones futuras, donde evaluadores humanos ciegos podrían verificar si ensayos menos formales y no académicos fueron escritos por una IA o un humano, y donde su desempeño podría compararse con las herramientas de detección de IA disponibles. Para abordar los desafíos que plantea la IA a las tareas basadas en ensayos, puede ser necesario reintroducir tareas de ensayos escritos a mano para garantizar que los estudiantes realmente apliquen sus propias habilidades de pensamiento crítico sin depender de la escritura asistida por IA. Independientemente de si la IA se integrará completamente como parte de las tareas y exámenes basados en ensayos o si se mantendrán formatos más tradicionales, se deben adoptar e integrar reglas claras para el uso de la IA en el entorno educativo teniendo en cuenta todos estos factores. en consideración, así como una definición clara sobre qué prácticas constituyen plagio en el contexto de la IA.26.
La principal fortaleza de nuestro estudio es el uso del software LIWC, que ha sido ampliamente validado en investigaciones anteriores. Esto nos permitió comparar cuantitativamente diferentes tipos de ensayos. Otra fortaleza importante es que utilizamos un conjunto de datos seleccionados con un tema específico. Específicamente, recopilamos un conjunto de ensayos comparativamente pequeño, pero centrado en un tema (con una alta tasa de respuesta de los estudiantes) producidos en un contexto de la vida real, en lugar de utilizar ensayos de bases de datos existentes o fuentes en línea. Esto significó que nuestro hallazgo refleja tanto cómo escriben los participantes de nuestro estudio en la práctica como cómo podrían usar herramientas de inteligencia artificial para generar ensayos. Sin embargo, nuestro estudio también tiene algunas limitaciones. Los estudiantes que escribieron los ensayos no eran hablantes nativos de inglés; sin embargo, asistían a un programa médico totalmente basado en el idioma inglés durante el cual también habían presentado tareas basadas en ensayos dentro de cada año de estudio anterior, lo que significa que su experiencia y conocimiento del idioma eran suficientes. También utilizamos ChatGPT 3.5 y Bard, aunque en ese momento había disponibles versiones más nuevas y de pago, como ChatGPT 4.0. Esta elección se debió al hecho de que ambos eran fácilmente accesibles para los estudiantes y de forma gratuita; El uso de versiones pagas de los LLM podría no reflejar situaciones de la vida real, ya que pensamos que era poco probable que los estudiantes pagaran las tarifas necesarias para acceder a los modelos más avanzados. Además, los dos LLM tienen algunas diferencias inherentes que se han destacado en varios estudios previos. Por ejemplo, un estudio reciente encontró que ChatGPT genera ensayos con oraciones y redacción más complejas, mientras que Bard genera textos más cohesivos.19. Otra investigación que impulsó a los dos LLM a utilizar un conjunto estandarizado de preguntas cerradas y abiertas encontró que Bard genera respuestas más largas pero más precisas, lo que aparentemente contrasta con el estudio de Borji y Mohammadian, quienes descubrieron que ChatGPT generalmente supera a Bard en términos. de la exactitud de las respuestas a un conjunto diverso de preguntas29,33. Sin embargo, a pesar de estas divergencias, los investigadores generalmente coinciden en que ambos LLM son altamente capaces de generar texto y contenido, especialmente en el contexto de la educación.19,20,29,33. Finalmente, aunque pudimos identificar una cierta cantidad de ensayos generados por IA a través de detectores de IA, no podemos determinar si hubo falsos positivos/negativos, o si otros estudiantes manipularon suficientemente los ensayos generados por IA para hacerlos indetectables. Para minimizar el impacto de esta limitación, utilizamos dos tipos diferentes de software de detección de IA para identificar dichos textos, mientras que todos los ensayos escritos por los estudiantes también habían sido previamente verificados de forma independiente por dos evaluadores humanos.
Noticias
La expulsión de Sam Altman de OpenAi ha entrado en el Zeitgeist cultural
Las luces se atenuaron cuando cinco actores tomaron sus lugares alrededor de una mesa en un escenario improvisado en una galería de arte de la ciudad de Nueva York que se convirtió en teatro para la noche. El vino y el agua fluyeron a través del espacio íntimo cuando la casa, llena de medios, sentada para presenciar el estreno de “Doomers”, la última obra de Matthew Gasda que se basa libremente en el expulsado de Sam Altman como CEO de OpenAi en noviembre de 2023.
La obra ficticia eventos que tuvieron lugar después del cofundador y ex científica jefe de Openi, Ilya Sutskever, informaron a Altman que fue despedido, una decisión que la junta tomó sobre las preocupaciones de que el CEO estaba mal manejando la seguridad de la IA y el comportamiento abusivo y tóxico. A pesar de la obvia investigación meticulosa que entró en la representación de Gasda de esa noche, el dramaturgo le dijo a TechCrunch que su objetivo no era crear un documental, sino usar ese escenario como un microcosmos para las cuestiones filosóficas de la seguridad y la alineación de la IA.
Los humanos han creado durante milenios mitos y tradiciones en torno a los próximos grandes inventos de la humanidad y los riesgos de perseguirlos. Al igual que Prometeo robando fuego y Oppenheimer dividiendo el átomo, la humanidad no puede resistir el señuelo de sus propios inventos. Con la obra de Gasda, las artes ahora están evaluando el debate filosófico sobre la rápida innovación tecnológica: cementando la tecnología y sus barones en el espigón.
“Las humanidades, las artes, podemos decir algo sobre esto”, dijo Gasda a TechCrunch. “Tal vez somos sin dientes financieros y sin dientes tecnológicamente, pero no somos sin dientes en la forma en que tenemos derecho a representar a este mundo tanto como a cualquier otra persona”.
En la obra de Gasda, la compañía se llama MindMesh, y el CEO egoísta, infantil y despreciado se llama Seth.
El primer acto ocurre en la “sala de guerra” de Seth mientras él y aquellos más cercanos a él debaten los méritos del expulsión de la junta, cuáles deberían ser sus próximos pasos y si el CEO tiene razón al perseguir tales tecnología que altera la sociedad. El segundo acto tiene lugar en la sala de juntas de MindMesh y describe los diversos temores entre sus miembros, incluido que el Seth recién usado podría tomar retribución a quienes lo traicionaron, y que “una especie competitiva vamos a eliminar”.
La tensión central de la obra es una que se está desarrollando hoy en el escenario mundial: la amenaza existencial de IA versus la promesa existencial de la misma.
‘Fui despedido por crear milagros’
Gasda dice que escribió 35 borradores de esta obra, que previseció para el público temprano en agosto. Después de más viajes a San Francisco, y muchas sesiones de escritura alimentadas por Celsius más tarde, llegó con la versión “Doomers” que se estrenará en Nueva York este fin de semana hasta febrero y se mostrará en San Francisco en marzo.
Gasda, conocido por escribir y dirigir “Dimes Square” y “Zoomers”, nos dijo que quería comprender los arquetipos de personajes y la psicología de un grupo de personas que no necesariamente “participan en la autorreflexión”.
El resultado es un elenco de 10, la mitad de los cuales se basan en personas reales como el CEO de Operai Sam Altman, la ex tecnóloga jefe Mira Murati, y cofundadora y presidente Greg Brockman. Murati se desempeñó como CEO interino durante la sacudida ejecutiva. Dejó la compañía en septiembre de 2024 para comenzar su propia compañía.
Otros personajes se basan en Helen Toner y Adam D’Angelo, dos ex miembros de la junta que votaron para expulsar a Altman; E incluso Eliezer Yudkowsky, un investigador que ha pedido que OpenAi sea cerrado antes de que termine el mundo.
Gasda dijo que Seth, el personaje basado en Altman, es quizás el más real en su representación, pero también dejó espacio para representaciones ficticias de personajes que los familiares con el Área de la Bahía reconocerán: un VC insensible que piensa que porno es El futuro de la IA, un recién minimizado fundador de Gen Z Millionaire, y un abogado de Stanford.
“Quería extraer suficiente sensación de fidelidad y sensación de realidad para que la obra sea desafiante y hacer que los personajes efectivamente lo suficientemente reales como para que no apaguen a las personas que realmente saben qué sucedió o saben qué es una sala de juntas en una compañía de IA. Me gusta “, dijo Gasda, señalando que Altman recibió una copia de la obra antes de que se estrenara.
Las preguntas que el debate del elenco son pertinentes: si el desarrollo de la IA se aceleró para que “nosotros” pueda ganar; Si su desarrollo se ralentiza para permitir una mejor seguridad y alineación; ¿Debería cerrarse por completo para proteger la raza humana?
A través de estos debates, vemos los arquetipos de cada personaje cumplidos: si hay una opción entre ganar y ser moral, Seth, el personaje basado en Atlman, elige ganar.
Él declara en voz alta que el tablero lo despidió “por crear milagros”, y argumenta que la alineación sería un “mal uso de un recurso sagrado”. Es humano, dice, seguir la excelencia y agrega que MindMesh es el “sistema inmunitario” del mundo, un benevolente Americano-Monado AGI que nos protegerá cuando el “malo” AGI se vuelva deshonesto.
“Lo único que debe hacer es superar a los ingenieros”, dice Seth. Los personajes basados en Mira Murati y Greg Brockman en gran medida de vuelta a Seth, incluso cuando los insulta, argumentando una visión de una utopía de IA donde la tecnología cura la enfermedad y abre viajes espaciales interplanetarios. A lo que el personaje ético de seguridad, Alina, dice: “Haces que suene como un genio en una botella”.
Gasda rocía humor seco en todos los “doomers”, aligerando el estado de ánimo de un tema tenso. También presenta el humor capturando matices de la cultura de Silicon Valley. Los políticos y la ketamina se mencionaron más de una vez, y en un momento, los personajes toman casualmente hongos. Hay referencias a Waymo Robotaxis, y en un momento un personaje comenta: “Sé que beber es de bajo estado, pero realmente necesito una bebida”, en referencia a la tendencia de Cali-Sober que adelanta a la bahía.
Las preguntas de seguridad permanecen
Los eventos representados en esta jugada tuvieron lugar hace casi 15 meses, y ya la conversación sobre IA ha cambiado a medida que la carrera por la dominación supera las cuestiones de seguridad.
Altman terminó volviendo inmediatamente a la energía después de que los ingenieros de Operai amenazaron con dejar en masa si no era reinstalado. Desde entonces se ha consolidado una nueva placa que se siente cómoda con OpenAi que cambia a una estructura con fines de lucro bajo el CEO. Sutskever y Jan Leike, co-líder en el ahora desaparecido equipo de superalineación de OpenAi, han desertado. Otros investigadores centrados en la seguridad que plantearon preocupaciones sobre los laboratorios de IA también se han ido.
Eso no ha dolido a OpenAi.
Según los informes, la compañía está recaudando una ronda de $ 40 mil millones que lo valoraría en $ 300 mil millones, mientras que el presidente Donald Trump promete proteger la IA de la regulación a medida que una nueva carrera armamentista contra China se calienta y los nuevos competidores, como Deepseek, ingresan al ring. En resumen, la innovación de IA se está acelerando, no disminuyendo, al igual que el personaje de Seth quería. La pregunta que todos esperan la respuesta es si esto es algo bueno o no.
“Es feo construir a Dios”, dice Alina, la ética de la obra. “Porque somos muy feos y se basa en nosotros”.
Noticias
Operai lanza O3-Mini, su último modelo de ‘razonamiento’
Operai lanzó el viernes un nuevo modelo de “razonamiento” de AI, O3-Mini, el más nuevo de la familia O de los modelos de razonamiento de la compañía.
OpenAi se previó por primera vez con una vista previa del modelo en diciembre junto con un sistema más capaz llamado O3, pero el lanzamiento llega en un momento crucial para la compañía, cuyas ambiciones, y desafíos, aparentemente están creciendo día a día.
Operai está luchando contra la percepción de que está cediendo terreno en la carrera de IA hacia compañías chinas como Deepseek, que Operai alega que podría haber robado su IP. No obstante, el fabricante de chatgpt ha logrado ganarse a decenas de desarrolladores, y ha estado tratando de apuntalar su relación con Washington, ya que simultáneamente persigue un ambicioso proyecto de centro de datos, según los informes, también está sentando las bases para una de las rondas de financiación más grandes por un empresa tecnológica en la historia.
Lo que nos lleva a O3-Mini. Operai está lanzando su nuevo modelo como “poderoso” y “asequible”.
“Las marcas de lanzamiento de hoy […] Un paso importante hacia la ampliación de la accesibilidad a la IA avanzada en el servicio de nuestra misión ”, dijo un portavoz de Operai a TechCrunch.
Razonamiento más eficiente
A diferencia de la mayoría de los modelos de idiomas grandes, los modelos de razonamiento como O3-Mini revisan a fondo antes de dar resultados. Esto les ayuda a evitar algunas de las trampas que normalmente tropiezan con los modelos. Estos modelos de razonamiento tardan un poco más en llegar a soluciones, pero la compensación es que tienden a ser más confiables, aunque no perfectas, en dominios como la física.
O3-Mini está ajustado para problemas STEM, específicamente para programación, matemáticas y ciencias. Operai afirma que el modelo está en gran medida a la par con la familia O1, O1 y O1-Mini en términos de capacidades, pero funciona más rápido y cuesta menos.
La compañía afirmó que los probadores externos prefirieron las respuestas de O3-Mini sobre las de O1-Mini más de la mitad del tiempo. O3-Mini aparentemente también cometió un 39% menos de “errores importantes” en “preguntas difíciles del mundo real” en las pruebas A/B versus O1-Mini, y produjo respuestas “más claras” mientras ofrecía respuestas aproximadamente un 24% más rápido.
O3-Mini estará disponible para todos los usuarios a través de ChatGPT a partir del viernes, pero los usuarios que pagan el ChatGPT Plus y los planes de equipo de la compañía obtendrán un límite de tarifa más alto de 150 consultas por día, mientras que los suscriptores de ChatGPT Pro tendrán acceso ilimitado. Operai dijo que O3-Mini vendrá a los clientes de ChatGPT Enterprise y ChatGPT EDU en una semana (sin decir el gobierno de chatgpt).
Los usuarios con planes de chatgpt premium pueden seleccionar O3-Mini usando el menú desplegable. Los usuarios gratuitos pueden hacer clic o tocar el nuevo botón “Razón” en la barra de chat, o hacer que ChatGPT “vuelva a generar” una respuesta.
A partir del viernes, O3-Mini también estará disponible a través de la API de Openai para seleccionar desarrolladores, pero inicialmente no tendrá soporte para analizar imágenes. Los desarrolladores pueden seleccionar el nivel de “esfuerzo de razonamiento” (bajo, medio o alto) para que O3-Mini “piense más duro” en función de su caso de uso y necesidades de latencia.
O3-Mini tiene un precio de $ 1.10 por millón de tokens de entrada en caché y $ 4.40 por millón de tokens de salida, donde un millón de tokens equivale a aproximadamente 750,000 palabras. Eso es 63% más barato que O1-Mini, y competitivo con el precio del modelo de razonamiento R1 de Deepseek. Deepseek cobra $ 0.14 por millón de tokens de entrada almacenados en caché y tokens de salida de $ 2.19 por millón para el acceso R1 a través de su API.
En ChatGPT, O3-Mini está establecido en un esfuerzo de razonamiento medio, que según OpenAi proporciona “una compensación equilibrada entre velocidad y precisión”. Los usuarios pagados tendrán la opción de seleccionar “O3-Mini-High” en el selector de modelo, que entregará lo que OpenAI llama “Inteligencia superior” a cambio de respuestas más lentas.
Independientemente de qué versión de los usuarios de O3-Mini ChatGPT elija, el modelo funcionará con la búsqueda para encontrar respuestas actualizadas con enlaces a fuentes web relevantes. OpenAI advierte que la funcionalidad es un “prototipo”, ya que funciona para integrar la búsqueda en sus modelos de razonamiento.
“Si bien O1 sigue siendo nuestro modelo de razonamiento general más amplio, O3-Mini proporciona una alternativa especializada para dominios técnicos que requieren precisión y velocidad”, escribió OpenAi en una publicación de blog el viernes. “El lanzamiento de O3-Mini marca otro paso en la misión de OpenAi de superar los límites de la inteligencia rentable”.
Abundan las advertencias
O3-Mini no es el modelo más poderoso de OpenAI hasta la fecha, ni salta el modelo de razonamiento R1 de Deepseek en cada punto de referencia.
O3-Mini supera a R1 en AIME 2024, una prueba que mide qué tan bien los modelos entienden y responden a instrucciones complejas, pero solo con un gran esfuerzo de razonamiento. También supera a R1 en la prueba de prueba centrada en la programación verificado (por .1 punto), pero nuevamente, solo con un gran esfuerzo de razonamiento. En un bajo esfuerzo de razonamiento, O3-Mini retrasa R1 en GPQA Diamond, que prueba modelos con preguntas de física, biología y química a nivel de doctorado.
Para ser justos, O3-Mini responde muchas consultas a un costo y latencia competitivamente de bajo. En la publicación, Openai compara su rendimiento con la familia O1:
“Con un bajo esfuerzo de razonamiento, O3-Mini logra un rendimiento comparable con O1-Mini, mientras que con un esfuerzo medio, O3-Mini logra un rendimiento comparable con O1”, escribe Openai. “O3-Mini con esfuerzo de razonamiento medio coincide con el rendimiento de O1 en matemáticas, codificación y ciencia mientras ofrece respuestas más rápidas. Mientras tanto, con un gran esfuerzo de razonamiento, O3-Mini supera a O1-Mini y O1 “.
Vale la pena señalar que la ventaja de rendimiento de O3-Mini sobre O1 es escasa en algunas áreas. En el AIME 2024, O3-Mini vence a O1 por solo 0.3 puntos porcentuales cuando se establece en un esfuerzo de razonamiento alto. Y en GPQA Diamond, O3-Mini no supera el puntaje de O1 incluso en un gran esfuerzo de razonamiento.
Operai afirma que O3-Mini es tan “seguro” o más seguro que la familia O1, sin embargo, gracias a los esfuerzos de equipo rojo y su metodología de “alineación deliberativa”, lo que hace que los modelos “piensen” sobre la política de seguridad de OpenAi mientras responden a consultas. Según la compañía, O3-Mini “supera significativamente” uno de los modelos insignia de OpenAI, GPT-4O, en “evaluaciones desafiantes de seguridad y jailbreak”.
Noticias
El modelo de razonamiento O3-Mini de OpenAI llega para contrarrestar el consumo profundo
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Operai ha lanzado un nuevo modelo de IA patentado a tiempo para contrarrestar el rápido ascenso del rival de código abierto Deepseek R1, pero ¿será suficiente para afectar el éxito de este último?
Hoy, después de varios días de rumores y una anticipación creciente entre los usuarios de IA en las redes sociales, Openal está debutando a O3-Mini, el segundo modelo en su nueva familia de “razonadores”, modelos que tardan un poco más en “pensar”, analizar su propios procesos y reflexionar sobre sus propias “cadenas de pensamiento” antes de responder a las consultas y entradas de los usuarios con nuevas salidas.
El resultado es un modelo que puede funcionar a nivel de un estudiante de doctorado o incluso titular de titulares para responder preguntas difíciles en matemáticas, ciencias, ingeniería y muchos otros campos.
El modelo O3-Mini ya está disponible en ChatGPT, incluido el nivel gratuito y la interfaz de programación de aplicaciones de OpenAI (API), y en realidad es menos costoso, más rápido y más desempeñada que el modelo de alta gama anterior, OpenAi’s O1 y su más rápido, su Hermano de recuento de parámetros inferiores, O1-Mini.
Si bien inevitablemente se comparará con Deepseek R1, y la fecha de lanzamiento se ve como una reacción, es importante recordar que O3 y O3-Mini se anunciaron bien antes del lanzamiento de enero de Deepseek R1, en diciembre de 2024, y que el CEO de Operai Sam Altman declaró anteriormente en X que, debido a los comentarios de desarrolladores e investigadores, llegaría a ChatGPT y la API de OpenAI al mismo tiempo.
A diferencia de Deepseek R1, O3-Mini no estará disponible como modelo de código abierto, lo que significa que el código no se puede tomar y descargar para el uso fuera de línea, ni personalizado en la misma medida, lo que puede limitar su atractivo en comparación con Deepseek R1 para algunas aplicaciones.
Operai no proporcionó más detalles sobre el (presunto) modelo O3 más grande anunciado en diciembre junto con O3-Mini. En ese momento, el formulario desplegable de opción de OpenAI para probar O3 declaró que se sometería a un “retraso de varias semanas” antes de que los terceros pudieran probarlo.
Rendimiento y características
Similar a O1, Operai O3-Mini está optimizado para el razonamiento en matemáticas, codificación y ciencia.
Su rendimiento es comparable a OpenAI O1 cuando se usa un esfuerzo de razonamiento medio, pero ofrece las siguientes ventajas:
- Tiempos de respuesta del 24% más rápidos en comparación con O1-Mini (OpenAi no proporcionó un número específico aquí, pero buscando pruebas de análisis artificial del grupo de evaluación de terceros, el tiempo de respuesta de O1-Mini es de 12.8 segundos para recibir y producir 100 tokens. Entonces, para O3-Mini, un aumento de velocidad del 24% reduciría el tiempo de respuesta a 10.32 segundos).
- Precisión mejorada, con probadores externos que prefieren las respuestas de O3-Mini el 56% del tiempo.
- 39% menos errores importantes en preguntas complejas del mundo real.
- Un mejor rendimiento en la codificación y las tareas STEM, particularmente cuando se usa un esfuerzo de razonamiento.
- Tres niveles de esfuerzo de razonamiento (bajo, medio y alto), lo que permite a los usuarios y desarrolladores equilibrar la precisión y la velocidad.
También cuenta con impresionantes puntos de referencia, incluso superando a O1 en algunos casos, según la tarjeta del sistema O3-Mini OpenAi lanzado en línea (y que se publicó antes del anuncio oficial de disponibilidad del modelo).
La ventana de contexto de O3-Mini, el número de tokens combinados que puede ingresar/salir en una sola interacción, es de 200,000, con un máximo de 100,000 en cada salida. Eso es lo mismo que el modelo O1 completo y supera la ventana de contexto de Deepseek R1 de alrededor de 128,000/130,000 tokens. Pero está muy por debajo de la ventana de contexto de Google Gemini 2.0 Flash Thinking de hasta 1 millón de tokens.
Si bien O3-Mini se centra en las capacidades de razonamiento, todavía no tiene capacidades de visión. Los desarrolladores y usuarios que buscan cargar imágenes y archivos deben seguir usando O1 mientras tanto.
La competencia se calienta
La llegada de las marcas O3-Mini la primera vez OpenAI está haciendo que un modelo de razonamiento esté disponible para los usuarios gratuitos de ChatGPT. La familia de modelos O1 anteriores solo estaba disponible para pagar a los suscriptores de los planes ChatGPT Plus, Pro y otros planes, así como a través de la interfaz de programación de aplicaciones pagas de OpenAI.
Como lo hizo con los chatbots con el modelo de idioma grande (LLM) a través del lanzamiento de ChatGPT en noviembre de 2022, Operai esencialmente creó toda la categoría de modelos de razonamiento en septiembre de 2024 cuando presentó O1 por primera vez, una nueva clase de modelos con una nueva capacitación régimen y arquitectura.
Pero OpenAi, de acuerdo con su historia reciente, no hizo O1 Open Source, contrario a su nombre y misión de fundación original. En cambio, mantuvo el código del modelo propietario.
Y en las últimas dos semanas, O1 ha sido eclipsado por la startup china de IA Deepseek, que lanzó R1, un modelo de razonamiento de código abierto rival, altamente eficiente, en gran medida abierto, disponible gratuitamente para tomar, volver a entrenar y personalizar por cualquier persona en todo el mundo, así como Como uso de forma gratuita en el sitio web y la aplicación móvil de Deepseek, un modelo, según los informes, capacitado a una fracción del costo de O1 y otros LLM de los mejores laboratorios.
Los términos de licencia del MIT permisivos de Deepseek R1, la aplicación/sitio web gratuitos para los consumidores y la decisión de poner en código de código de R1 a disposición de la base y modificarlo a la vez que lo ha llevado a una verdadera explosión de uso tanto en los mercados de consumo como en las empresas, incluso el inversor de OpenAi Microsoft y el patrocinador antrópico Amazon se apresura a agregar variantes a sus mercados de nubes. La perplejidad, la compañía de búsqueda de IA, también agregó rápidamente una variante para los usuarios.
También destronó la aplicación ChatGPT iOS para el lugar número uno en la tienda de aplicaciones de Apple de EE. UU., Y es notable por superar a OpenAI conectando Deepseek R1 a la búsqueda web, algo que OpenAI aún no ha hecho para O1, lo que lleva a una mayor ansiedad techno entre tecnología. Los trabajadores y otros en línea que China se está poniendo al día o ha superado a los Estados Unidos en la innovación de IA, incluso la tecnología en general.
Sin embargo, muchos investigadores de IA y científicos y los principales VC como Marc Andreessen han acogido con beneplácito el aumento de Deepseek y su abastecimiento abierto en particular como una marea que levanta todos los barcos en el campo de la IA, aumentando la inteligencia disponible para todos al tiempo que reduce los costos.
Disponibilidad en chatgpt
El modelo ahora se está implementando a nivel mundial para usuarios gratuitos, además de Team, y Pro, con acceso a la empresa y la educación que llegará la próxima semana.
- Los usuarios gratuitos pueden probar O3-Mini por primera vez seleccionando el botón “Razón” en la barra de chat o regenerando una respuesta.
- Los límites de mensajes han aumentado 3 veces para los usuarios más y del equipo, de 50 a 150 mensajes por día.
- Los usuarios profesionales obtienen acceso ilimitado tanto a O3-Mini como a una nueva variante, incluso de mayor condición, O3-Mini-High.
Además, O3-Mini ahora admite la integración de búsqueda dentro de ChatGPT, proporcionando respuestas con enlaces web relevantes. Esta característica todavía se encuentra en sus primeras etapas, ya que OpenAI refina las capacidades de búsqueda en sus modelos de razonamiento.
Integración y precios de API
Para los desarrolladores, O3-Mini está disponible a través de la API de finalización de chat, la API de asistentes y la API por lotes. El modelo admite llamadas de función, salidas estructuradas y mensajes de desarrollador, lo que facilita la integración en aplicaciones del mundo real.
Una de las ventajas más notables de O3-Mini es su eficiencia de costo: es un 63% más barato que OpenAI O1-Mini y 93% más barato que el modelo O1 completo, con un precio de $ 1.10/$ 4.40 por millón de tokens In/Out (con un descuento de 50% en caché ).
Sin embargo, todavía palidece en comparación con la asequibilidad de la oferta oficial de R1 de la API de DeepSeek a $ 0.14/$ 0.55 por millón de tokens. Pero Dado Deepseek se basa en China y viene con conciencia geopolítica y preocupaciones de seguridad sobre los datos del usuario/empresa que fluyen dentro y fuera del modelo, es probable que Operai siga siendo la API preferida para algunos clientes y empresas centradas en la seguridad en los Estados Unidos. y Europa.
Los desarrolladores también pueden ajustar el nivel de esfuerzo de razonamiento (bajo, medio, alto) en función de sus necesidades de aplicación, lo que permite un mayor control sobre las compensaciones de latencia y precisión.
Sobre seguridad, Operai dice que usó algo llamado “alineación deliberativa” con O3-Mini. Esto significa que se le pidió al modelo que razonara sobre las pautas de seguridad de autorización humana que se le dio, comprenden más de su intención y los daños que están diseñados para prevenir, y se les ocurre sus propias formas de garantizar que se eviten esos daños. Operai dice que permite que el modelo sea menos censurado cuando se discute temas delicados al tiempo que preserva la seguridad.
Operai dice que el modelo supera a GPT-4O en el manejo de los desafíos de seguridad y jailbreak, y que realizó una amplia prueba de seguridad externa antes de su lanzamiento hoy.
Un informe reciente cubierto en Cableado (Donde trabaja mi esposa) demostró que Deepseek sucumbió a cada aviso de jailbreak e intento de 50 probados por investigadores de seguridad, lo que puede darle a OpenAI O3-Mini la ventaja sobre Deepseek R1 en los casos en que la seguridad y la seguridad son primordiales.
Qué próximo?
El lanzamiento de O3-Mini representa el esfuerzo más amplio de Openai para hacer que el razonamiento avanzado AI sea más accesible y rentable frente a una competencia más intensa que nunca de R1 y otros de Deepseek, como Google, que recientemente lanzó una versión gratuita propia propia. Modelo de razonamiento rival Gemini 2 Flash Pensamiento con un contexto de entrada ampliado de hasta 1 millón de tokens.
Con su enfoque en el razonamiento y la asequibilidad STEM, OpenAI tiene como objetivo expandir el alcance de la resolución de problemas impulsada por la IA en aplicaciones de consumidores y desarrolladores.
Pero a medida que la compañía se vuelve más ambiciosa que nunca en sus objetivos, recientemente anunciando un proyecto de infraestructura de centros de datos de $ 500 mil millones llamado Stargate con el respaldo de SoftBank, la pregunta sigue siendo si su estrategia valdrá lo suficientemente bien como para justificar los multibonos hundidos en él. Inversores de bolsillo profundamente como Microsoft y otros VC.
A medida que los modelos de código abierto cierran cada vez más la brecha con OpenAi en el rendimiento y lo superan en el costo, según los informes, sus medidas de seguridad superiores, capacidades potentes, API fácil de usar e interfaces fáciles de usar ser suficientes para mantener a los clientes, especialmente en la empresa, en la empresa, ¿Quién puede priorizar el costo y la eficiencia sobre estos atributos? Informaremos sobre los desarrollos a medida que se desarrollen.
-
Startups8 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos9 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Recursos9 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Recursos8 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Tutoriales9 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Startups7 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Estudiar IA8 meses ago
Curso de Inteligencia Artificial de UC Berkeley estratégico para negocios
-
Noticias7 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo