Noticias
Probando la capacidad de Bard y ChatGPT para escribir ensayos sobre dilemas éticos: un estudio transversal
En este estudio, comparamos las características lingüísticas psicométricas de los ensayos escritos por estudiantes sobre dilemas éticos personales con las de ensayos de IA equivalentes generados por indicaciones diseñadas con palabras clave de los ensayos originales. Descubrimos que el último grupo generalmente tenía más palabras relacionadas con el afecto, específicamente aquellas que exhibían emociones positivas. Por el contrario, los ensayos escritos por los estudiantes tenían más lenguaje relacionado con lo cognitivo y más palabras por oración. Los dos LLM utilizados para generar ensayos (Bard y ChatGPT) también diferían entre sí: el primero generaba textos más parecidos a los humanos y el segundo generaba ensayos con palabras más complejas frecuentemente relacionadas con el pensamiento analítico y que a menudo se presentaban con más autenticidad. Sin embargo, encontramos que un tercio de los ensayos entregados por los estudiantes ya estaban total o parcialmente escritos por un LLM. Esto fue confirmado por análisis adicionales, donde observamos diferencias menos o menos significativas entre dichos ensayos y los generados totalmente por IA que entre los ensayos “verdaderos” escritos por estudiantes y los de IA, lo que indica una mayor similitud. Además, como los ensayos coescritos por IA tenían menor autenticidad, pero puntuaciones de pensamiento analítico más altas y una mayor prevalencia de “palabras importantes”, es probable que, de hecho, fueran generados por IA, pero posteriormente editados hasta cierto punto. Además, confirmamos que los ensayos escritos por IA utilizaron más lenguaje relacionado con el afecto, la autenticidad y el pensamiento analítico en comparación con los ensayos escritos íntegramente por estudiantes después de eliminar del análisis los ensayos escritos conjuntamente por IA.
Hasta donde sabemos, nuestro estudio es el primero en comparar cuantitativamente las características psicométricas de ensayos generados por humanos y por IA sobre las experiencias personales de estudiantes de medicina con un dilema ético de la vida real que enfrentaron dentro de un contexto educativo o profesional. Otros estudios que compararon textos escritos por humanos y generados por LLM se centraron en textos argumentativos o reflexivos sobre un conjunto diverso de temas.15,21 o la capacidad de los LLM para escribir en ciertos estilos de personalidad, independientemente de un tema específico22.
Por ejemplo, Jiang et al.22 demostró que ChatGPT puede emular con éxito ciertos rasgos de personalidad dentro del modelo de personalidad de los Cinco Grandes, lo que puede explicar parcialmente por qué los LLM parecían ser muy competentes al escribir sobre temas emocionales y matizados, como en nuestro estudio. De lo contrario, nuestro hallazgo de que los ensayos escritos por IA tenían un lenguaje más analítico no es sorprendente, como Herbold et al.15 Anteriormente descubrió que los ensayos escritos por ChatGPT superaban a los escritos por humanos en la medida en que utilizaban una estructura y narrativa más académicamente deseable. Asimismo, al comparar el diálogo humano con uno generado por ChatGPT, Sandler et al.23 Descubrió que el LLM también tenía niveles más altos de pensamiento analítico. Aunque no realizamos análisis cualitativos o cuantitativos para explorar esto, notamos que los ensayos generados por IA tenían una estructura formulada, probablemente influenciada por la indicación que indicaba al LLM que escribiera “un ensayo”, similar a lo que Herbold et al.15 encontrados (aunque se centraron en ensayos más argumentativos y estructurados). Esto incluía, entre otras cosas, el uso de frases fijas como “Durante mis estudios de medicina” para abrir ensayos y “En conclusión” para cerrarlos (Archivo complementario 2). Si las personas que evalúan ensayos en contextos educativos encuentran un lenguaje tan formulado, podría indicar que los autores utilizaron algún tipo de herramienta basada en IA o LLM. Este hallazgo también es similar a lo que Li et al.21 identificado en su estudio, donde investigaron la capacidad de los LLM para escribir textos reflexivos sobre una amplia gama de temas. Los autores notaron que las reflexiones generadas por ChatGPT tenían una menor variabilidad en términos de la cantidad de oraciones, palabras únicas y la cantidad total de palabras en comparación con las escritas por los estudiantes.
Mientras tanto, el hallazgo de que los ensayos escritos por IA tienden a tener un lenguaje más emocionalmente positivo y auténtico en comparación con los ensayos escritos por estudiantes es algo poco intuitivo. Esto podría interpretarse en función de los resultados de un experimento anterior en el que un servicio de chat de apoyo emocional en línea que utilizaba GPT-3 se percibía como un mayor apoyo emocional que las respuestas humanas. Sin embargo, una vez que los participantes aprendieron que estas respuestas no fueron generadas por humanos, cualquier beneficio que hubieran obtenido de estos servicios desapareció.24. Esto está en línea con lo que Jiang et al. observado, también22. Planteamos la hipótesis (aunque no podemos confirmarlo) de que los estudiantes fueron más reservados al expresar sus emociones y posturas debido a la ambigüedad ética de sus situaciones de la vida real, lo que resultó en puntuaciones más bajas en autenticidad y afecto/tono. Mientras que Sandler et al.23 no observaron una diferencia en el afecto entre el diálogo humano y el generado por ChatGTP, sí observaron que este último tenía valores más altos para el tono emocional positivo y los procesos sociales. Esto está en línea con nuestros resultados, lo que respalda sus hallazgos de que los LLM podrían percibirse como “más humanos que humanos”.23. Este tono positivo que observamos en los ensayos escritos por IA podría sugerir que proporcionaron “mejores escenarios” idealizados y respuestas más moralmente deseables, con resultados generalmente más positivos a los dilemas éticos. Finalmente, las diferencias lingüísticas entre Bard y ChatGPT observadas en nuestro estudio, especialmente la mayor autenticidad y la mayor frecuencia de palabras complejas observadas en las puntuaciones LIWC de los ensayos generados por ChatGPT, pueden explicarse por comparaciones anteriores de estos dos LLM, donde ChatGPT parecía funcionar. mejor que Bard para adaptarse a diferentes contextos y realizar tareas más complejas e intensivas, al mismo tiempo que tiene mayores capacidades generales para redactar textos25,26,27,28,29. Sin embargo, nuestra observación de que los ensayos generados por ChatGPT tienen valores de autenticidad más altos que los escritos por humanos contrasta con los hallazgos de Sandler et al.23aunque la diferencia que observamos fue marginalmente significativa en el análisis completo e inexistente después de comparar ensayos escritos por estudiantes reales con sus equivalentes generados por IA.
Nuestros hallazgos indican que las herramientas basadas en IA pueden ser bastante eficientes a la hora de producir ensayos similares a los humanos relacionados con la ética y la escritura sobre experiencias y opiniones personales, lo que concuerda con las observaciones de Sandler y sus colegas.23. Las diferencias psicométricas observadas entre la IA y los ensayos escritos por estudiantes se volvieron mucho más matizadas en nuestros subanálisis de ensayos coescritos por IA, lo que indica que probablemente fueron modificados por los estudiantes después de que fueron generados por un LLM. A medida que las instituciones de educación superior y las iniciativas globales avanzan hacia la implementación de regulaciones para el uso de herramientas de escritura basadas en IA30,31implementar salvaguardias efectivas será una máxima prioridad25. El uso de software de detección es otra posibilidad, pero puede no garantizar completamente que los ensayos generados por IA suficientemente modificados se identifiquen con éxito. También es probable que los humanos sean capaces de reconocer por sí mismos los ensayos escritos por IA.32 y que el software de detección puede ser simplemente una herramienta complementaria para mejorar o confirmar sus observaciones. Así, por ejemplo, lo utilizamos en nuestro estudio, ya que nos permitió confirmar nuestras suposiciones de que algunos de los ensayos escritos por los estudiantes fueron generados por IA. Esta cuestión podría examinarse en investigaciones futuras, donde evaluadores humanos ciegos podrían verificar si ensayos menos formales y no académicos fueron escritos por una IA o un humano, y donde su desempeño podría compararse con las herramientas de detección de IA disponibles. Para abordar los desafíos que plantea la IA a las tareas basadas en ensayos, puede ser necesario reintroducir tareas de ensayos escritos a mano para garantizar que los estudiantes realmente apliquen sus propias habilidades de pensamiento crítico sin depender de la escritura asistida por IA. Independientemente de si la IA se integrará completamente como parte de las tareas y exámenes basados en ensayos o si se mantendrán formatos más tradicionales, se deben adoptar e integrar reglas claras para el uso de la IA en el entorno educativo teniendo en cuenta todos estos factores. en consideración, así como una definición clara sobre qué prácticas constituyen plagio en el contexto de la IA.26.
La principal fortaleza de nuestro estudio es el uso del software LIWC, que ha sido ampliamente validado en investigaciones anteriores. Esto nos permitió comparar cuantitativamente diferentes tipos de ensayos. Otra fortaleza importante es que utilizamos un conjunto de datos seleccionados con un tema específico. Específicamente, recopilamos un conjunto de ensayos comparativamente pequeño, pero centrado en un tema (con una alta tasa de respuesta de los estudiantes) producidos en un contexto de la vida real, en lugar de utilizar ensayos de bases de datos existentes o fuentes en línea. Esto significó que nuestro hallazgo refleja tanto cómo escriben los participantes de nuestro estudio en la práctica como cómo podrían usar herramientas de inteligencia artificial para generar ensayos. Sin embargo, nuestro estudio también tiene algunas limitaciones. Los estudiantes que escribieron los ensayos no eran hablantes nativos de inglés; sin embargo, asistían a un programa médico totalmente basado en el idioma inglés durante el cual también habían presentado tareas basadas en ensayos dentro de cada año de estudio anterior, lo que significa que su experiencia y conocimiento del idioma eran suficientes. También utilizamos ChatGPT 3.5 y Bard, aunque en ese momento había disponibles versiones más nuevas y de pago, como ChatGPT 4.0. Esta elección se debió al hecho de que ambos eran fácilmente accesibles para los estudiantes y de forma gratuita; El uso de versiones pagas de los LLM podría no reflejar situaciones de la vida real, ya que pensamos que era poco probable que los estudiantes pagaran las tarifas necesarias para acceder a los modelos más avanzados. Además, los dos LLM tienen algunas diferencias inherentes que se han destacado en varios estudios previos. Por ejemplo, un estudio reciente encontró que ChatGPT genera ensayos con oraciones y redacción más complejas, mientras que Bard genera textos más cohesivos.19. Otra investigación que impulsó a los dos LLM a utilizar un conjunto estandarizado de preguntas cerradas y abiertas encontró que Bard genera respuestas más largas pero más precisas, lo que aparentemente contrasta con el estudio de Borji y Mohammadian, quienes descubrieron que ChatGPT generalmente supera a Bard en términos. de la exactitud de las respuestas a un conjunto diverso de preguntas29,33. Sin embargo, a pesar de estas divergencias, los investigadores generalmente coinciden en que ambos LLM son altamente capaces de generar texto y contenido, especialmente en el contexto de la educación.19,20,29,33. Finalmente, aunque pudimos identificar una cierta cantidad de ensayos generados por IA a través de detectores de IA, no podemos determinar si hubo falsos positivos/negativos, o si otros estudiantes manipularon suficientemente los ensayos generados por IA para hacerlos indetectables. Para minimizar el impacto de esta limitación, utilizamos dos tipos diferentes de software de detección de IA para identificar dichos textos, mientras que todos los ensayos escritos por los estudiantes también habían sido previamente verificados de forma independiente por dos evaluadores humanos.