Noticias

Cómo saber si ChatGPT escribió los ensayos de los estudiantes

Published

on

Ayer los estudiantes entregaron sus trabajos finales del semestre para mi clase de historia del pensamiento económico, y me gustaría compartir lo que aprendí sobre cómo puedo detectar casi detectar si ChatGPT escribió el artículo. Se han cambiado detalles para proteger a los culpables.

Esta tarea en particular requirió que los estudiantes escribieran un ensayo que conectara cómo los economistas clásicos escribían sobre el trabajo y lo vincularan con la forma en que lo hicieron los economistas laborales de la Sección de Relaciones Industriales de Princeton. Intenté mantenerlo abierto. Para ayudarlos a comprender cómo traté de prepararlos, permítanme compartirles las dos tareas semanales durante todo el semestre.

  1. Crítica de IA (“críticos”) de escritores clásicos.

Cada dos semanas, los estudiantes tuvieron que usar ChatGPT para tres cosas y luego escribir un ensayo de respuesta. Las tres cosas fueron:

  • Copie y pegue un escrito de economista clásico (párrafo o dos) en ChatGPT-4o y pídale que lo resuma en dos párrafos con cuatro oraciones por párrafo. El propósito era obligarlos a presenciar las capacidades de resumen.

  • Copie y pegue el material original y el resumen en ChatGPT-4o nuevamente, separe la ventana de chat y pídale que ahora escriba una crítica del escritor, pero incluyendo dos referencias/citas para respaldar la crítica.

  • Hazlo de nuevo pero esta vez usando el modelo o1,

Luego lo entregaron, formateado y fácil de leer, como un documento para lienzo.

La segunda parte de la tarea fue ésta.

  • comprobar y calificar en una “escala de alucinaciones” si las citas fueron reales y relevantes (vale 2 puntos), reales pero irrelevantes (1 punto) o inventadas. Hazlo para ChatGPT-4o, luego o1.

  • Califique en una escala del 1 al 5, siendo 1 nada bueno, 5 muy bueno, qué tan preciso fue el resumen y luego qué tan creativa fue la crítica.

  • Escriba una respuesta comparando el resumen con el original, la crítica al escritor original y lo que aprendieron.

Real y relevante significaba que era una referencia real y la referencia encajaba. Se suponía que debían verificar y, si era imposible verificarlo (y a menudo es imprácticamente imposible), solo obtendrían 1 punto para ChatGPT. Existía una cita real, pero una cita pertinente era a la vez una cita apropiada que respaldaba el punto planteado y era posible comprobarla. No se pueden comprobar todas las citas. ¿Por qué? No se puede consultar a Marx (1867). Es un libro de mil páginas. ¿Dónde está el material? Qué estás buscando.

Y básicamente, lo que los estudiantes encontraron por sí solos fueron tres cosas.

  • ChatGPT resúmenes muy bien.

  • ChatGPT 4o alucina referencias con bastante frecuencia

  • Pero o1 normalmente no alucina y las citas son más fáciles de verificar (números de capítulo y página) y tienen sentido.

Y aprendieron que había maneras de hacer que la citación fuera más fácil y controlada. Simplemente puede decirle a o1 que necesita 3 citas, con resúmenes detallados, nombres de títulos, información del autor y de la revista, pero también puede simplemente explicar que el material debe ser realista para recuperarlo e investigarlo y luego explicar sus limitaciones de esta manera:

  • Solo puedo usar Internet para verificarlo, por lo que debe ser accesible en línea.

  • Tengo una vida así que no me digan que mire “Adam Smith (1776)”. ¿Mira dónde? Sea específico y explique por qué hace esta sugerencia.

Y así sucesivamente. El objetivo era que experimentaran personalmente las cosas que hace bien, las que no hacen bien, las que casi no se pueden superar con esfuerzo y el desempeño relativo de los dos LLM.

  1. Escuche 7 de mis entrevistas en podcast con economistas laborales de la Sección de Relaciones Industriales de Princeton, además de Richard Freeman y David Autor, y escriba un ensayo de respuesta, con alguna orientación sobre lo que quería.

La esperanza era que no pudieran usar IA para la tarea del podcast, ya que se trataba de una cuestión de audio. Obviamente, existen herramientas de inteligencia artificial para ti. Una manera fácil sería usar otter.ai para obtener la transcripción y luego cargarla en su LLM favorito. Pero mi esperanza es que no hagan eso.

La tarea crítica duró una semana y una semana de descanso. Y la tarea del podcast fue la otra semana de forma intermitente.

El artículo final, como dije, fue escribir un artículo con un punto de vista original sobre los economistas clásicos que escriben sobre el trabajo y Princeton usando los podcasts más los discursos del Nobel de Card y Angrist más un par de otros artículos resumidos, y luego nuestras lecturas. durante el semestre sobre los escritores clásicos. Di instrucciones más detalladas que eso, pero esa es la esencia.

Cosas que observé sobre los trabajos finales.

Primero la observación amplia. Es bastante fácil para un profesor experimentado ver que algo ha cambiado a lo largo de los semestres. Y la forma más sencilla de explicarlo es que la distribución de calidad que antes era normal ha dejado de serlo.

En concreto, la cola derecha de la distribución de la calidad parece ser la misma. Los mejores artículos son bastante similares. Tienen un punto de vista, utilizan evidencia apropiadamente, tienen una tesis, usan marcas distintivas particulares de un artículo creativo. Simplemente cosas del tipo de estudiantes universitarios.

Lo que es diferente es la cola izquierda. Los peores periódicos no son tan malos. Entonces eso es una cosa. Pero también es como si pudieras sentir que la variación en los artículos se ha reducido y no me refiero sólo mecánicamente porque los peores artículos no son tan malos. Es más bien como si muchos de los artículos contrafactuales, mediocres y malos, no sólo fueran mejores, sino que son similares en algunos aspectos que me resultan difíciles de precisar.

Entonces eso es una cosa. Pero aquí está el extraño descubrimiento que hice. Se puede saber qué artículos no fueron escritos por IA porque en realidad no son “perfectos” y hay signos reveladores de ello. Por un lado, los artículos tendrán párrafos extremadamente largos. Quizás un solo párrafo dure incluso cuatro páginas. ChatGPT nunca te permitiría hacer eso, que es precisamente cómo se hizo cada vez más obvio para mí que estos estudiantes habían cumplido con la política de IA en clase que había expuesto.

Y la otra cosa fue que esos ensayos con párrafos largos también eran ensayos en los que el estudiante tenía una tesis y un punto de vista. Es casi como si usted mismo escribiera un artículo, donde necesita respaldar el artículo y los argumentos con evidencia, terminaría con un punto de vista. Es posible que no tengas una oración de tesis en el primer párrafo o que no uses oraciones temáticas, pero aún así, hay señales de que los estudiantes están tratando de presentar sus propios argumentos.

Y finalmente, los artículos sospechosos de AI tendían a tener párrafos estructurados, sonaban bien y eran coherentes, pero en lugar de una tesis y un punto de vista, los artículos eran simplemente largas listas de resúmenes, pero convertidos en párrafos, lo cual nuevamente es parte de lo que hace ChatGPT por defecto. Enumera y resume y, a menos que sepa cuál es el propósito de escribir, no podrá ver el problema.

No es que ChatGPT no pueda usarse para escribir un ensayo excelente con una tesis y un punto de vista, sino que el esfuerzo generalmente requeriría una conciencia ex ante y una decisión para hacerlo. Así que esa fue la cuestión.

Pero la cuestión era atrapar a alguien que violara la política de IA. Ver el punto anterior no es realmente algo que se pueda decir con certeza que AI escribió el artículo. Al menos no para mí este semestre. Quizás a largo plazo, pero creo que se necesitarían decisiones de diseño más intencionales al programar las tareas para saber realmente qué hacer, cuál era el objetivo de aprendizaje y cuál era el resultado que se deseaba. Estaré pensando en esto por un tiempo.

No, capté algunos casos debido a lo único que había estado tratando de transmitirles durante todo el semestre: referencias alucinadas. Por extraño que parezca, hubo una única referencia que algunos artículos siguieron haciendo pero nunca igual. Lo inventaré pero fue una cita como esta.

“bla, bla, bla (Samuelson y Becker 2021)”

Y luego irías a las referencias y diría:

Samuelson, Paul y Gary Becker (2021), “Transición de las teorías del trabajo clásicas a las neoclásicas”, American Economic Review, 4(4).

O sería este:

Samuelson, Paul y Gary Becker (2021), “Transition from Classical to Neoclassical Theories of Labor: a Tale of Two Cities”, NBER Working Paper núm. 23124, doi:XXXX

En otras palabras, una secuencia específica de autores sería citada en fechas imposibles en pares que, por casualidad, sabía que no eran ciertos. Y si puse la referencia, de cualquier manera, no era real.

La otra cosa, que fue un poco más atroz, fue una larga discusión sobre dos episodios de podcast que no existían. Uno con una persona anónima que ya no está viva y otro con alguien a quien no he logrado incluir en el programa.

No compartiré la pena, pero en conjunto fue como si algunos artículos fueran excelentes, y otros artículos fueran geniales y claramente escritos por un humano y detectables porque tenían defectos y tenían un punto de vista. Casi siempre era detectable debido al problema de los párrafos muy largos.

Era casi como si la prueba de Turing para un trabajo de estudiante hiciera cosas que a los estudiantes universitarios les gustan: párrafos muy largos con un punto de vista.

Y luego había dos tipos de papeles. Artículos bien escritos pero sin tesis, sin punto de vista, y solo una serie de párrafos que resumen las cosas. No se pudo hacer nada al respecto y, sinceramente, ni siquiera estoy seguro de qué decir porque creo que lo más probable es que los estudiantes universitarios no sepan necesariamente que van a tener una tesis. Y en economía, como lo estamos en la escuela de negocios, sospecho que aún más el capital humano asociado con la redacción de ensayos es muy limitado. Hay artículos que escriben en clases de econometría, pero no estoy seguro de que sean iguales a este.

Y luego están los artículos sobre “citas inventadas”, que son fácilmente corregibles y probablemente sean un efecto de cohorte que incluso se detectó. Mi corazonada es que ese no será el caso por mucho más tiempo. Aprenderán y encontrarán un sistema mejor para no hacer eso, y entonces tampoco será detectable.

Pero entonces, ¿cuál es la lección general que aprendí? Por ahora, no daré tareas de escritura fuera de clase. Esa es la solución sencilla. No los pondré en esa situación.

La IA le permite completar tareas de aprendizaje utilizando entradas de tiempo cero. Pero la cuestión es que, como educador, las tareas o los trabajos finales se inventaron de forma endógena a un objetivo educativo y a la tecnología existente. En otras palabras, el objetivo nunca fue hacer tarea. No hay nada socialmente valioso en un conjunto de problemas completo.

No, el objetivo de aprender tareas como tareas y trabajos era proporcionar a los estudiantes una tarea que requiriera tiempo a través del cual crecería su propio capital humano en la materia. El capital humano en un sujeto estaba en función del uso del tiempo, es decir, de un tipo particular de uso del tiempo. Si automatiza las tareas utilizando LLM, está sustituyendo el aprendizaje.

Entonces, un profesor debe decidir: ¿es ese su objetivo previsto? Porque si ese es su objetivo previsto, entonces, por supuesto, déles tareas como esa. Pero si ese no es el objetivo previsto, entonces no lo hagas. Pero el aprendizaje no se puede automatizar. Esto no es The Matrix: no podemos (al menos todavía no) recostarnos en una silla, clavar una varilla en nuestro cerebro y simplemente descargar conocimiento. Todavía requiere un uso intensivo del tiempo, tiempo asignado.

Irónicamente, David Ricardo en la tercera edición de su libro principal lo actualizó para decir que, en teoría, las máquinas podrían hacer que el PIB disminuyera, lo cual era ambiguo. No dijo PIB porque en aquel entonces no tenían ninguna medida contable para la producción agregada, pero eso es lo que entenderíamos que dijera.

A microescala, creo que cada vez que un estudiante sustituye el tiempo dedicado a aprender utilizando la tecnología de inteligencia artificial actual, la sensación de que está aprendiendo más es una ilusión. Es un espejismo. Mi creencia personal es que la sustitución del tiempo dedicado al estudio intensivo sigue reduciendo el capital humano. ¿Tiene que serlo? No, obviamente. ¿Pero es probable? Sí probablemente.

No estoy decepcionado, sino sólo porque me niego a dejarme decepcionar. Lo más probable es que cambie hacia cosas que simplemente los obliguen a aprender y eso probablemente tenga más en juego en los exámenes de clase, tal vez posiblemente en los exámenes orales. Incluso puedo pedirles que vayan a la pizarra y resuelvan problemas de optimización restringidos con ceniceros y humo de cigarrillos y cigarros en una espesa niebla, como en los viejos tiempos.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version