Noticias
ChatGPT puede ser tan efectivo como la ayuda humana, sugiere el estudio

Un estudio reciente publicado en PLoS uno Proporciona evidencia de que la inteligencia artificial puede ser tan útil como un tutor humano cuando se trata de aprender matemáticas. Los investigadores descubrieron que los estudiantes que usan sugerencias generadas por ChatGPT, un popular chatbot de inteligencia artificial, mostraron mejoras de aprendizaje similares en álgebra y estadísticas como los que reciben orientación de sugerencias de autorización humana.
La tecnología educativa está mirando cada vez más hacia herramientas avanzadas de inteligencia artificial como ChatGPT para mejorar las experiencias de aprendizaje. La capacidad del chatbot para generar texto humano ha provocado interés en su potencial de tutoría y brindar apoyo educativo. Muchos creen que esta tecnología podría hacer que el aprendizaje personalizado sea más accesible y eficiente. Sin embargo, ha habido investigaciones limitadas para comprender cuán efectivos y confiables son estos sistemas de inteligencia artificial en escenarios de aprendizaje reales, particularmente en materias académicas como las matemáticas.
Crear materiales de aprendizaje útiles para la educación en línea, como pistas y ejemplos trabajados, es un proceso costoso y que requiere mucho tiempo. Tradicionalmente, los educadores y los expertos en la materia deben desarrollar, refinar y verificar estos recursos manualmente. Esto a menudo implica muchas rondas de revisiones y control de calidad. Si la inteligencia artificial como ChatGPT podría generar automáticamente un apoyo de aprendizaje de alta calidad y efectivo, podría reducir drásticamente el esfuerzo y el costo involucrado en el desarrollo de herramientas educativas. Esto podría allanar el camino para un acceso más amplio a los sistemas de tutoría y experiencias de aprendizaje más personalizadas en diversos temas y niveles educativos.
“Como investigador en el espacio de la IA en la educación, hubo muchas preguntas ardientes que la introducción de ChatGPT provocó que aún no se respondieron”, dijo el autor de estudio Zachary A. Pardos, profesor asociado de la Escuela de Educación de UC Berkeley.
“Si bien OpenAi proporcionó algunas tarjetas de calificaciones sobre el rendimiento, las tasas de alucinación en el nivel de granularidad de las sujetas académicas granulares no estaban bien establecidas. Las preguntas esenciales que se formulan fueron ¿con qué frecuencia esta tecnología comete errores en áreas de tallo clave y sus resultados pueden conducir al aprendizaje “?
“También dio forma a estas preguntas para nosotros fue nuestro desarrollo de un sistema de tutoría adaptativa de código abierto (Oatutor.io) y la curación del contenido para ese sistema. Nosotros, un laboratorio de investigación, éramos básicamente un pequeño editor y la producción de contenido llevaba mucho tiempo. Desde una perspectiva de eficiencia y escala, el papel de la IA, el chatgpt en particular, para ayudar a nuestro equipo a producir materiales más rápidamente sin una disminución medible en la calidad fue una pregunta importante “.
Los investigadores realizaron un estudio en línea que involucró a 274 participantes reclutados a través de Amazon Mechanical Turk, una plataforma para tareas en línea. Todos los participantes tenían al menos un título en la escuela secundaria y tenían una designación en la plataforma que indica un historial de finalización exitosa de tareas. Esto aseguró que poseían las habilidades matemáticas básicas necesarias para beneficiarse potencialmente del estudio y que eran participantes en línea confiables.
El estudio utilizó un experimento cuidadosamente diseñado donde los participantes fueron asignados aleatoriamente a una de las tres condiciones: un grupo de control sin sugerencias, un grupo que recibió sugerencias creadas por tutores humanos y un grupo que recibe sugerencias generadas por ChatGPT. Dentro de cada una de estas condiciones de sugerencia, los participantes fueron asignados al azar para trabajar en problemas de una de las cuatro materias matemáticas: álgebra elemental, álgebra intermedia, álgebra universitaria o estadísticas. Los problemas matemáticos fueron tomados de libros de texto en línea disponibles gratuitamente.
Los investigadores utilizaron un sistema de tutoría en línea de código abierto como plataforma para el estudio. Este sistema entregó problemas de matemáticas y, según la condición asignada, proporcionó sugerencias. Para la condición de sugerencia de tutor humano, el sistema utilizó sugerencias preexistentes que habían sido desarrolladas por estudiantes de pregrado con experiencia previa en tutoría de matemáticas. Estos sugerencias creadas por humanos fueron diseñadas para guiar a los estudiantes paso a paso a través del proceso de resolución de problemas. Para la condición de sugerencias de chatgpt, los investigadores generaron nuevos sugerencias específicamente para este estudio. Impulsaron ChatGPT con cada problema de matemáticas y usaron su salida basada en texto como pista.
Antes de comenzar la sección de resolución de problemas, todos los participantes completaron una breve prueba previa que consta de tres preguntas para evaluar su conocimiento inicial del tema matemático asignado. Después de la prueba previa, los participantes trabajaron en cinco problemas de práctica en su sujeto asignado. En las condiciones de sugerencia, los estudiantes pueden solicitar pistas mientras trabajan en estos problemas. Después de los problemas de práctica, los participantes tomaron una prueba posterior, que usó exactamente las mismas preguntas que la prueba previa, para medir cualquier ganancia de aprendizaje. El grupo de control recibió comentarios de corrección durante los problemas de práctica, pero no hay pistas adicionales. Sin embargo, podrían solicitar una “pista de fondo” que simplemente les dio la respuesta al problema para que pudieran avanzar. Los participantes en las condiciones de sugerencia tenían acceso a sugerencias de solución completa, además de esta opción de fondo. También se registró el tiempo que los participantes dedicados a la tarea.
Para garantizar la calidad de las sugerencias generadas por ChatGPT, los investigadores realizaron controles de calidad. Evaluaron si los sugerencias proporcionaron la respuesta correcta, mostraron pasos correctos y contenían un lenguaje apropiado. Inicialmente, descubrieron que las sugerencias generadas por ChatGPT contenían errores en aproximadamente el 32% de los problemas. Para reducir estos errores, utilizaron una técnica llamada “autoconsistencia”. Esto implicó pedirle a ChatGPT que generara diez sugerencias diferentes para cada problema y luego seleccionar la pista que contenía la respuesta más común entre las diez respuestas. Este método redujo significativamente la tasa de error, particularmente para los problemas de álgebra, reduciendo a casi cero para álgebra y a aproximadamente el 13% para los problemas estadísticos.
“La alta tasa de alucinación de ChatGPT en las áreas temáticas que probamos fue sorprendente y también lo fue la capacidad de reducir eso a casi 0% con una técnica de mitigación de alucinación bastante simple”, dijo Pardos a PSYPOST.
Los investigadores descubrieron que las sugerencias generadas por ChatGPT eran realmente efectivas para promover el aprendizaje. Los participantes que recibieron sugerencias de ChatGPT mostraron una mejora estadísticamente significativa en sus puntajes desde la prueba previa a la prueba posterior, lo que indica que habían aprendido de las pistas.
En segundo lugar, las ganancias de aprendizaje logradas por los estudiantes que usan sugerencias de ChatGPT fueron comparables a aquellos que recibieron pistas de autos humanos. No hubo diferencias estadísticamente significativas en la mejora del aprendizaje entre estos dos grupos. Tanto el grupo ChatGPT de sugerencias como el grupo de sugerencias de tutores humanos mostraron ganancias de aprendizaje significativamente mayores que el grupo de control, que no recibió pistas. Curiosamente, si bien ambas condiciones de sugerencia dieron como resultado un aprendizaje similar, los participantes en ambas condiciones de sugerencia pasaron más tiempo en la tarea en comparación con el grupo de control. Sin embargo, no hubo diferencias significativas en el tiempo entre el grupo ChatGPT de sugerencia y el grupo de indicios de tutor humano.
“El chatGPT utilizado para la producción de contenido educativo matemático es efectivo para el aprendizaje y acelera el proceso de autoría de contenido en 20 veces”, dijo Pardos.
Pero los investigadores reconocieron algunas limitaciones para su estudio. Una limitación era que, debido a las limitaciones del modelo de inteligencia artificial en ese momento, solo podían usar problemas matemáticos que no incluían imágenes o cifras. La investigación futura podría explorar versiones más nuevas de estos modelos que pueden manejar la información visual. Otro punto es que el estudio utilizó trabajadores turcos mecánicos, no estudiantes en entornos de aula reales. Si bien esto permitió una recopilación y experimentación de datos más rápidas, los estudios futuros deberían realizarse idealmente con estudiantes en las escuelas para confirmar estos hallazgos en entornos educativos reales.
Los investigadores también señalaron que utilizaron un modelo específico de inteligencia artificial de código cerrado (CHATGPT 3.5). La investigación futura podría investigar la efectividad de modelos de inteligencia artificial más abiertamente accesible. Finalmente, el estudio se centró en un tipo particular de soporte de aprendizaje: ejemplo de ejemplo de ejemplo. Los estudios futuros podrían explorar cómo se puede utilizar la inteligencia artificial para generar otros tipos de estrategias pedagógicas e interacciones de tutoría más complejas.
Además, sigue siendo incierto si ChatGPT y otros modelos de inteligencia artificial pueden tutor de manera efectiva las materias académicas más allá de las matemáticas. “Este enfoque pedagógico de la tutoría mostrando ejemplos de cómo resolver un problema, generado por la IA, puede no prestarse a dominios que son de naturaleza menos procesal (por ejemplo, escritura creativa)”, señaló Pardos.
Mirando hacia el futuro, este estudio sugiere que la inteligencia artificial tiene el potencial de revolucionar la creación de recursos educativos y sistemas de tutoría. El hecho de que ChatGPT puede generar ayuda matemática que es tan efectiva como la ayuda creada por los humanos, y hace mucho más rápido, abre posibilidades emocionantes para hacer que la educación de alta calidad sea más accesible y escalable.
“La tutoría humana individual es muy costosa y muy efectiva”, dijo Pardos. “Por cierto, la tutoría informática individual también es costosa de producir. Estamos interesados en explorar cómo la producción de tutores asistidos por Genai puede cambiar la estructura de costos y la accesibilidad de la tutoría y potencialmente aumentar su eficacia a través de una mayor personalización que se puede lograr razonablemente con enfoques computacionales heredados “.
“Recientemente hemos publicado un estudio que evalúa qué tan bien ChatGPT (y otros modelos) puede producir preguntas sobre dificultad apropiada, en comparación con las preguntas de los libros de texto. Colocar a los maestros en el asiento del conductor de Genai también es un hilo de investigación en el que estamos progresando. Esa investigación emergente, aceptada en la Conferencia de Factores Humanos en Sistemas de Computación (CHI) y otros hilos se pueden encontrar en nuestro sitio web: https://www.oatutor.io/resources#research-paper “.
El estudio, “Ayuda generada por ChatGPT produce ganancias de aprendizaje equivalentes a la ayuda autora de tutores humanos en habilidades de matemáticas”, fue escrito por Zachary A. Pardos y Shreya Bhandari.