Noticias
Cómo saber si ChatGPT escribió los ensayos de los estudiantes
Published
4 meses agoon

Ayer los estudiantes entregaron sus trabajos finales del semestre para mi clase de historia del pensamiento económico, y me gustaría compartir lo que aprendí sobre cómo puedo detectar casi detectar si ChatGPT escribió el artículo. Se han cambiado detalles para proteger a los culpables.
Esta tarea en particular requirió que los estudiantes escribieran un ensayo que conectara cómo los economistas clásicos escribían sobre el trabajo y lo vincularan con la forma en que lo hicieron los economistas laborales de la Sección de Relaciones Industriales de Princeton. Intenté mantenerlo abierto. Para ayudarlos a comprender cómo traté de prepararlos, permítanme compartirles las dos tareas semanales durante todo el semestre.
-
Crítica de IA (“críticos”) de escritores clásicos.
Cada dos semanas, los estudiantes tuvieron que usar ChatGPT para tres cosas y luego escribir un ensayo de respuesta. Las tres cosas fueron:
-
Copie y pegue un escrito de economista clásico (párrafo o dos) en ChatGPT-4o y pídale que lo resuma en dos párrafos con cuatro oraciones por párrafo. El propósito era obligarlos a presenciar las capacidades de resumen.
-
Copie y pegue el material original y el resumen en ChatGPT-4o nuevamente, separe la ventana de chat y pídale que ahora escriba una crítica del escritor, pero incluyendo dos referencias/citas para respaldar la crítica.
-
Hazlo de nuevo pero esta vez usando el modelo o1,
Luego lo entregaron, formateado y fácil de leer, como un documento para lienzo.
La segunda parte de la tarea fue ésta.
-
comprobar y calificar en una “escala de alucinaciones” si las citas fueron reales y relevantes (vale 2 puntos), reales pero irrelevantes (1 punto) o inventadas. Hazlo para ChatGPT-4o, luego o1.
-
Califique en una escala del 1 al 5, siendo 1 nada bueno, 5 muy bueno, qué tan preciso fue el resumen y luego qué tan creativa fue la crítica.
-
Escriba una respuesta comparando el resumen con el original, la crítica al escritor original y lo que aprendieron.
Real y relevante significaba que era una referencia real y la referencia encajaba. Se suponía que debían verificar y, si era imposible verificarlo (y a menudo es imprácticamente imposible), solo obtendrían 1 punto para ChatGPT. Existía una cita real, pero una cita pertinente era a la vez una cita apropiada que respaldaba el punto planteado y era posible comprobarla. No se pueden comprobar todas las citas. ¿Por qué? No se puede consultar a Marx (1867). Es un libro de mil páginas. ¿Dónde está el material? Qué estás buscando.
Y básicamente, lo que los estudiantes encontraron por sí solos fueron tres cosas.
-
ChatGPT resúmenes muy bien.
-
ChatGPT 4o alucina referencias con bastante frecuencia
-
Pero o1 normalmente no alucina y las citas son más fáciles de verificar (números de capítulo y página) y tienen sentido.
Y aprendieron que había maneras de hacer que la citación fuera más fácil y controlada. Simplemente puede decirle a o1 que necesita 3 citas, con resúmenes detallados, nombres de títulos, información del autor y de la revista, pero también puede simplemente explicar que el material debe ser realista para recuperarlo e investigarlo y luego explicar sus limitaciones de esta manera:
-
Solo puedo usar Internet para verificarlo, por lo que debe ser accesible en línea.
-
Tengo una vida así que no me digan que mire “Adam Smith (1776)”. ¿Mira dónde? Sea específico y explique por qué hace esta sugerencia.
Y así sucesivamente. El objetivo era que experimentaran personalmente las cosas que hace bien, las que no hacen bien, las que casi no se pueden superar con esfuerzo y el desempeño relativo de los dos LLM.
-
Escuche 7 de mis entrevistas en podcast con economistas laborales de la Sección de Relaciones Industriales de Princeton, además de Richard Freeman y David Autor, y escriba un ensayo de respuesta, con alguna orientación sobre lo que quería.
La esperanza era que no pudieran usar IA para la tarea del podcast, ya que se trataba de una cuestión de audio. Obviamente, existen herramientas de inteligencia artificial para ti. Una manera fácil sería usar otter.ai para obtener la transcripción y luego cargarla en su LLM favorito. Pero mi esperanza es que no hagan eso.
La tarea crítica duró una semana y una semana de descanso. Y la tarea del podcast fue la otra semana de forma intermitente.
El artículo final, como dije, fue escribir un artículo con un punto de vista original sobre los economistas clásicos que escriben sobre el trabajo y Princeton usando los podcasts más los discursos del Nobel de Card y Angrist más un par de otros artículos resumidos, y luego nuestras lecturas. durante el semestre sobre los escritores clásicos. Di instrucciones más detalladas que eso, pero esa es la esencia.
Cosas que observé sobre los trabajos finales.
Primero la observación amplia. Es bastante fácil para un profesor experimentado ver que algo ha cambiado a lo largo de los semestres. Y la forma más sencilla de explicarlo es que la distribución de calidad que antes era normal ha dejado de serlo.
En concreto, la cola derecha de la distribución de la calidad parece ser la misma. Los mejores artículos son bastante similares. Tienen un punto de vista, utilizan evidencia apropiadamente, tienen una tesis, usan marcas distintivas particulares de un artículo creativo. Simplemente cosas del tipo de estudiantes universitarios.
Lo que es diferente es la cola izquierda. Los peores periódicos no son tan malos. Entonces eso es una cosa. Pero también es como si pudieras sentir que la variación en los artículos se ha reducido y no me refiero sólo mecánicamente porque los peores artículos no son tan malos. Es más bien como si muchos de los artículos contrafactuales, mediocres y malos, no sólo fueran mejores, sino que son similares en algunos aspectos que me resultan difíciles de precisar.
Entonces eso es una cosa. Pero aquí está el extraño descubrimiento que hice. Se puede saber qué artículos no fueron escritos por IA porque en realidad no son “perfectos” y hay signos reveladores de ello. Por un lado, los artículos tendrán párrafos extremadamente largos. Quizás un solo párrafo dure incluso cuatro páginas. ChatGPT nunca te permitiría hacer eso, que es precisamente cómo se hizo cada vez más obvio para mí que estos estudiantes habían cumplido con la política de IA en clase que había expuesto.
Y la otra cosa fue que esos ensayos con párrafos largos también eran ensayos en los que el estudiante tenía una tesis y un punto de vista. Es casi como si usted mismo escribiera un artículo, donde necesita respaldar el artículo y los argumentos con evidencia, terminaría con un punto de vista. Es posible que no tengas una oración de tesis en el primer párrafo o que no uses oraciones temáticas, pero aún así, hay señales de que los estudiantes están tratando de presentar sus propios argumentos.
Y finalmente, los artículos sospechosos de AI tendían a tener párrafos estructurados, sonaban bien y eran coherentes, pero en lugar de una tesis y un punto de vista, los artículos eran simplemente largas listas de resúmenes, pero convertidos en párrafos, lo cual nuevamente es parte de lo que hace ChatGPT por defecto. Enumera y resume y, a menos que sepa cuál es el propósito de escribir, no podrá ver el problema.
No es que ChatGPT no pueda usarse para escribir un ensayo excelente con una tesis y un punto de vista, sino que el esfuerzo generalmente requeriría una conciencia ex ante y una decisión para hacerlo. Así que esa fue la cuestión.
Pero la cuestión era atrapar a alguien que violara la política de IA. Ver el punto anterior no es realmente algo que se pueda decir con certeza que AI escribió el artículo. Al menos no para mí este semestre. Quizás a largo plazo, pero creo que se necesitarían decisiones de diseño más intencionales al programar las tareas para saber realmente qué hacer, cuál era el objetivo de aprendizaje y cuál era el resultado que se deseaba. Estaré pensando en esto por un tiempo.
No, capté algunos casos debido a lo único que había estado tratando de transmitirles durante todo el semestre: referencias alucinadas. Por extraño que parezca, hubo una única referencia que algunos artículos siguieron haciendo pero nunca igual. Lo inventaré pero fue una cita como esta.
“bla, bla, bla (Samuelson y Becker 2021)”
Y luego irías a las referencias y diría:
Samuelson, Paul y Gary Becker (2021), “Transición de las teorías del trabajo clásicas a las neoclásicas”, American Economic Review, 4(4).
O sería este:
Samuelson, Paul y Gary Becker (2021), “Transition from Classical to Neoclassical Theories of Labor: a Tale of Two Cities”, NBER Working Paper núm. 23124, doi:XXXX
En otras palabras, una secuencia específica de autores sería citada en fechas imposibles en pares que, por casualidad, sabía que no eran ciertos. Y si puse la referencia, de cualquier manera, no era real.
La otra cosa, que fue un poco más atroz, fue una larga discusión sobre dos episodios de podcast que no existían. Uno con una persona anónima que ya no está viva y otro con alguien a quien no he logrado incluir en el programa.
No compartiré la pena, pero en conjunto fue como si algunos artículos fueran excelentes, y otros artículos fueran geniales y claramente escritos por un humano y detectables porque tenían defectos y tenían un punto de vista. Casi siempre era detectable debido al problema de los párrafos muy largos.
Era casi como si la prueba de Turing para un trabajo de estudiante hiciera cosas que a los estudiantes universitarios les gustan: párrafos muy largos con un punto de vista.
Y luego había dos tipos de papeles. Artículos bien escritos pero sin tesis, sin punto de vista, y solo una serie de párrafos que resumen las cosas. No se pudo hacer nada al respecto y, sinceramente, ni siquiera estoy seguro de qué decir porque creo que lo más probable es que los estudiantes universitarios no sepan necesariamente que van a tener una tesis. Y en economía, como lo estamos en la escuela de negocios, sospecho que aún más el capital humano asociado con la redacción de ensayos es muy limitado. Hay artículos que escriben en clases de econometría, pero no estoy seguro de que sean iguales a este.
Y luego están los artículos sobre “citas inventadas”, que son fácilmente corregibles y probablemente sean un efecto de cohorte que incluso se detectó. Mi corazonada es que ese no será el caso por mucho más tiempo. Aprenderán y encontrarán un sistema mejor para no hacer eso, y entonces tampoco será detectable.
Pero entonces, ¿cuál es la lección general que aprendí? Por ahora, no daré tareas de escritura fuera de clase. Esa es la solución sencilla. No los pondré en esa situación.
La IA le permite completar tareas de aprendizaje utilizando entradas de tiempo cero. Pero la cuestión es que, como educador, las tareas o los trabajos finales se inventaron de forma endógena a un objetivo educativo y a la tecnología existente. En otras palabras, el objetivo nunca fue hacer tarea. No hay nada socialmente valioso en un conjunto de problemas completo.
No, el objetivo de aprender tareas como tareas y trabajos era proporcionar a los estudiantes una tarea que requiriera tiempo a través del cual crecería su propio capital humano en la materia. El capital humano en un sujeto estaba en función del uso del tiempo, es decir, de un tipo particular de uso del tiempo. Si automatiza las tareas utilizando LLM, está sustituyendo el aprendizaje.
Entonces, un profesor debe decidir: ¿es ese su objetivo previsto? Porque si ese es su objetivo previsto, entonces, por supuesto, déles tareas como esa. Pero si ese no es el objetivo previsto, entonces no lo hagas. Pero el aprendizaje no se puede automatizar. Esto no es The Matrix: no podemos (al menos todavía no) recostarnos en una silla, clavar una varilla en nuestro cerebro y simplemente descargar conocimiento. Todavía requiere un uso intensivo del tiempo, tiempo asignado.
Irónicamente, David Ricardo en la tercera edición de su libro principal lo actualizó para decir que, en teoría, las máquinas podrían hacer que el PIB disminuyera, lo cual era ambiguo. No dijo PIB porque en aquel entonces no tenían ninguna medida contable para la producción agregada, pero eso es lo que entenderíamos que dijera.
A microescala, creo que cada vez que un estudiante sustituye el tiempo dedicado a aprender utilizando la tecnología de inteligencia artificial actual, la sensación de que está aprendiendo más es una ilusión. Es un espejismo. Mi creencia personal es que la sustitución del tiempo dedicado al estudio intensivo sigue reduciendo el capital humano. ¿Tiene que serlo? No, obviamente. ¿Pero es probable? Sí probablemente.
No estoy decepcionado, sino sólo porque me niego a dejarme decepcionar. Lo más probable es que cambie hacia cosas que simplemente los obliguen a aprender y eso probablemente tenga más en juego en los exámenes de clase, tal vez posiblemente en los exámenes orales. Incluso puedo pedirles que vayan a la pizarra y resuelvan problemas de optimización restringidos con ceniceros y humo de cigarrillos y cigarros en una espesa niebla, como en los viejos tiempos.
You may like
Noticias
Lo que dice el acuerdo de OpenAI del Washington Post sobre las licencias de IA
Published
45 minutos agoon
1 mayo, 2025
La evolución de la licencia de contenido de IA ofertas
El Washington Post se ha convertido en el último editor importante en llegar a un acuerdo de licencia con Openai, uniéndose a una cohorte creciente que ahora abarca más de 20 organizaciones de noticias.
Es parte de un patrón familiar: cada pocos meses, Openai bloquea otro editor para reforzar su tubería de contenido. Pero los términos de estos acuerdos parecen estar evolucionando en silencio, alejándose sutilmente del lenguaje explícito en torno a los datos de capacitación que definieron acuerdos anteriores y planteando nuevas preguntas sobre lo que ahora significan estas asociaciones.
El acuerdo del Washington Post se centra en surgir su contenido en respuesta a consultas relacionadas con las noticias. “Como parte de esta asociación, ChatGPT mostrará resúmenes, citas y enlaces a informes originales de la publicación en respuesta a preguntas relevantes”, se lee el anuncio el 22 de abril sobre el acuerdo de la publicación con OpenAI. En contraste, el pasado se ocupa de editores como Axel Springer y Time, firmado en diciembre de 2023 y junio de 2024 respectivamente, explícitamente incluyó disposiciones para la capacitación de LLM de OpenAI en su contenido.
El acuerdo de OpenAI de The Guardian, anunciado en febrero de 2025, tiene una redacción similar al anuncio del Washington Post y no se menciona los datos de capacitación. Un portavoz de Guardian se negó a comentar sobre los términos de acuerdo con OpenAI. El Washington Post no respondió a las solicitudes de comentarios.
Estos cambios algo sutiles en el lenguaje de los términos podrían indicar un cambio más amplio en el paisaje de IA, según conversaciones con cuatro Expertos legales de medios. Podría indicar un cambio en cómo los acuerdos de licencia de contenido de IA están estructurados en el futuro, con más editores que potencialmente buscan acuerdos que prioricen la atribución y la prominencia en los motores de búsqueda de IA sobre los derechos para la capacitación modelo.
Otro factor a tener en cuenta: estas compañías de IA ya han capacitado a sus LLM en grandes cantidades de contenido disponible en la web, según Aaron Rubin, socio del grupo estratégico de transacciones y licencias en la firma de abogados Gunderson Dettmer. Y debido a que las compañías de IA enfrentan litigios de compañías de medios que afirman que esto era una infracción de derechos de autor, como el caso del New York Times contra OpenAI, si las compañías de IA continuaran pagando a los datos de licencia con fines de capacitación, podría verse como “una admisión implícita” que debería haber pagado para licenciar esos datos y no haberlo escrito de forma gratuita, dijo Rubin.
“[AI companies] Ya tienen un billón de palabras que han robado. No necesitan las palabras adicionales tan mal para la capacitación, pero quieren tener el contenido actualizado para respuestas [in their AI search engines]”, Dijo Bill Gross, fundador de la empresa de inicio de IA Prorata.ai, que está construyendo soluciones tecnológicas para compensar a los editores por el contenido utilizado por las compañías generativas de IA.
Tanto las compañías de IA como los editores pueden beneficiarse de esta posible evolución, según Rubin. Las compañías de IA obtienen acceso a noticias confiables y actualizadas de fuentes confiables para responder preguntas sobre los eventos actuales en sus productos, y los editores “pueden llenar un vacío que tenían miedo que faltaran con la forma en que estas herramientas de IA han evolucionado. Estaban perdiendo clics y globos oculares y enlaces a sus páginas”, dijo. Tener una mejor atribución en lugares como la búsqueda de chatgpt tiene el potencial de impulsar más tráfico a los sitios de los editores. Al menos, esa es la esperanza.
“Tiene el potencial de generar más dinero para los editores”, dijo Rubin. “Los editores están apostando a que así es como las personas van a interactuar con los medios de comunicación en el futuro”.
Desde el otoño pasado, Operai ha desafiado a los gigantes de búsqueda como Google con su motor de búsqueda de IA, búsqueda de chatgpt, y ese esfuerzo depende del acceso al contenido de noticias. Cuando se le preguntó si la estructura de los acuerdos de Operai con los editores había cambiado, un portavoz de OpenAI señaló el lanzamiento de la compañía de la compañía de ChatGPT en octubre de 2024, así como mejoras anunciadas esta semana.
“Tenemos un feed directo al contenido de nuestro socio editor para mostrar resúmenes, citas y enlaces atribuidos a informes originales en respuesta a preguntas relevantes”, dijo el portavoz. “Ese es un componente de las ofertas. La capacitación posterior ayuda a aumentar la precisión de las respuestas relacionadas con el contenido de un editor”. El portavoz no respondió a otras solicitudes de comentarios.
No está claro cuántos editores como The Washington Post no se pueden hacer de OpenAI, especialmente porque puede surgir un modelo diferente centrado en la búsqueda de ChatGPT. Pero la perspectiva para los acuerdos de licencia entre editores y compañías de IA parece estar empeorando. El valor de estos acuerdos está “en picado”, al menos según el CEO de Atlantic, Nicholas Thompson, quien habló en el evento Reuters Next en diciembre pasado.
“Todavía hay un mercado para la licencia de contenido para la capacitación y eso sigue siendo importante, pero continuaremos viendo un enfoque en entrar en acuerdos que resultan en impulsar el tráfico a los sitios”, dijo John Monterubio, socio del grupo avanzado de medios y tecnología en la firma de abogados Loeb & Loeb. “Será la nueva forma de marketing de SEO y compra de anuncios, para parecer más altos en los resultados al comunicarse con estos [generative AI] herramientas.”
Lo que hemos escuchado
“No tenemos que preocuparnos por una narración algo falsa de: las cookies deben ir … entonces puedes poner todo este ancho de banda y potencia para mejorar el mercado actual, sin preocuparte por un posible problema futuro que estuviera en el control de Google todo el tiempo”.
– Anónimo Publishing Ejecute la decisión de Google la semana pasada de continuar usando cookies de terceros en Chrome.
Números para saber
$ 50 millones: la cantidad que Los Angeles Times perdió en 2024.
50%: El porcentaje de adultos estadounidenses que dijeron que la IA tendrá un impacto muy o algo negativo en las noticias que las personas obtienen en los EE. UU. Durante los próximos 20 años, según un estudio del Centro de Investigación Pew.
$ 100 millones: la cantidad Spotify ha pagado a los editores y creadores de podcasts desde enero.
0.3%: La disminución esperada en el uso de los medios (canales digitales y tradicionales) en 2025, la primera caída desde 2009, según PQ Media Research.
Lo que hemos cubierto
Las demandas de AI destacan las luchas de los editores para impedir que los bots raspen contenido
- La reciente demanda de Ziff Davis contra Operai destaca la realidad de que los editores aún no tienen una forma confiable de evitar que las compañías de IA raspen su contenido de forma gratuita.
- Si bien han surgido herramientas como Robots.txt archivos, paredes de pago y etiquetas de bloqueo AI-AI, muchos editores admiten que es muy difícil hacer cumplir el control en cada bot, especialmente porque algunos ignoran los protocolos estándar o enmascaran sus identidades.
Leer más aquí.
¿Quién compraría Chrome?
- El ensayo antimonopolio de búsqueda de Google podría obligar a Google a separarse del navegador Chrome.
- Si lo hizo, OpenAi, Perplexity, Yahoo y Duckduckgo podrían ser algunos de los compradores potenciales.
Lea más sobre el impacto potencial de una venta masiva de Chrome aquí.
Tiktok está cortejando a los creadores y agencias para participar en sus herramientas en vivo
- Tiktok está tratando de demostrar el potencial de ingresos de sus herramientas en vivo.
- La plataforma de redes sociales dice que sus creadores ahora generan colectivamente $ 10 millones en ingresos diariamente a través de la transmisión en vivo.
Lea más sobre el tono de Tiktok aquí.
¿WTF son bots grises?
- Los rastreadores y raspadores de IA generativos están siendo llamados “bots grises” por algunos para ilustrar la línea borrosa entre el tráfico real y falso.
- Estos bots pueden afectar el análisis y robar contenido, y las impresiones publicitarias impulsadas por la IA pueden dañar las tasas de clics y las tasas de conversión.
Lea más sobre por qué los bots grises son un riesgo para los editores aquí.
¿Facebook se está convirtiendo en un nuevo flujo de ingresos nuevamente para los editores?
- Los editores han sido testigos de un reciente pico de referencia de Facebook, y es, algo sorprendentemente, coincidiendo con una afluencia de ingresos del programa de monetización de contenido de Meta.
- De los 10 editores con los que Digay habló para este artículo, varios están en camino de hacer entre seis y siete cifras este año del último programa de monetización de contenido de Meta.
Lea más sobre lo que reciben los editores de Facebook aquí.
Lo que estamos leyendo
Las ambiciones de video de los podcasts de los medios de comunicación destacan el movimiento del formato de audio a la televisión
Los medios de comunicación como el New York Times y el Atlantic están poniendo más recursos en la producción de videos de los populares programas de podcast para aprovechar el público más joven de YouTube, informó Vanity Fair.
La perplejidad quiere recopilar datos sobre los usuarios para vender anuncios personalizados
El CEO de Perplexity, Aravind Srinivas, dijo que la perplejidad está construyendo su propio navegador para recopilar datos de usuarios y vender anuncios personalizados, informó TechCrunch.
El presidente Trump apunta a la prensa en los primeros 100 días
El presidente Trump apunta a las compañías de medios tradicionales en sus primeros 100 días, utilizando tácticas como prohibir los puntos de venta de que cubren los eventos de la Casa Blanca hasta el lanzamiento de investigaciones en las principales redes, informó Axios.
SemAFOR probará suscripciones
SemaFor “probará” suscripciones en “Due Time”, el fundador Justin Smith dijo al Inteligencer de la revista New York en una inmersión profunda en la empresa de inicio de noticias centrada en el boletín.
Noticias
Ser educado para chatgpt es una nueva investigación sin sentido
Published
4 horas agoon
30 abril, 2025
En resumen
- Una nueva investigación argumenta que decir “por favor” a los chatbots de IA no mejora sus respuestas, contradiciendo estudios anteriores.
- Los científicos identificaron un “punto de inflexión” matemático donde la calidad de IA colapsa, depende de la capacitación y el contenido, no la cortesía.
- A pesar de estos hallazgos, muchos usuarios continúan siendo educados a la IA por hábito cultural, mientras que otros utilizan estratégicamente enfoques educados para manipular las respuestas de IA.
Un nuevo estudio de los investigadores de la Universidad George Washington descubrió que ser cortés con los modelos de IA como ChatGPT no solo es un desperdicio de recursos informáticos, sino que también no tiene sentido.
Los investigadores afirman que agregar “por favor” y “gracias” a las indicaciones tiene un “efecto insignificante” en la calidad de las respuestas de IA, que contradicen directamente estudios anteriores y prácticas de usuario estándar.
El estudio fue publicado en ARXIV el lunes, llegando solo unos días después de que el CEO de OpenAi, Sam Altman, mencionó que los usuarios que escribían “por favor” y “agradecimientos” en sus indicaciones le costaron a la compañía “decenas de millones de dólares” en el procesamiento de tokens adicionales.
El documento contradice un estudio japonés de 2024 que encontró que la cortesía mejoró el rendimiento de la IA, particularmente en las tareas del idioma inglés. Ese estudio probó múltiples LLM, incluidos GPT-3.5, GPT-4, Palm-2 y Claude-2, encontrando que la cortesía produjo beneficios de rendimiento medibles.
Cuando se le preguntó sobre la discrepancia, David Acosta, director de IA en la plataforma de datos con IA arbo AI, dijo Descifrar que el modelo George Washington podría ser demasiado simplista para representar sistemas del mundo real.
“No son aplicables porque la capacitación se realiza esencialmente diariamente en tiempo real, y hay un sesgo hacia el comportamiento educado en los LLM más complejos”, dijo Acosta.
Agregó que, si bien el halagio podría llevarte en algún lugar con LLM ahora, “pronto hay una corrección” que cambiará este comportamiento, lo que hace que los modelos menos afectados por frases como “por favor” y “gracias”, y más efectivo, independientemente del tono utilizado en el aviso.
Acosta, una experta en IA ética y PNL avanzada, argumentó que hay más para incorporar ingeniería que las matemáticas simples, especialmente teniendo en cuenta que los modelos de IA son mucho más complejos que la versión simplificada utilizada en este estudio.
“Los resultados contradictorios sobre la cortesía y el rendimiento de la IA generalmente se derivan de las diferencias culturales en los datos de capacitación, los matices de diseño rápido específicos de las tareas e interpretaciones contextuales de cortesía, que requieren experimentos interculturales y marcos de evaluación adaptados a la tarea para aclarar los impactos”, dijo.
El equipo de GWU reconoce que su modelo está “intencionalmente simplificado” en comparación con los sistemas comerciales como ChatGPT, que utilizan mecanismos de atención de múltiples cabezas múltiples más complejos.
Sugieren que sus hallazgos deberían probarse en estos sistemas más sofisticados, aunque creen que su teoría aún se aplicaría a medida que aumente el número de cabezas de atención.
Los hallazgos de George Washington se derivaron de la investigación del equipo sobre cuando la IA emite repentinamente colapsan de contenido coherente a problemático, lo que llaman un “punto de inflexión de Jekyll y Hyde”. Sus conclusiones argumentan que este punto de inflexión depende completamente de la capacitación de una IA y las palabras sustantivas en su aviso, no de cortesía.

“Si la respuesta de nuestra IA se volverá pícaro depende de la capacitación de nuestra LLM que proporcione los tokens incrustaciones, y las fichas sustantivas en nuestro aviso, no si hemos sido educados o no”, explicó el estudio.
El equipo de investigación, dirigido por los físicos Neil Johnson y Frank Yingjie Huo, utilizó un modelo de cabeza de atención única simplificada para analizar cómo la información del proceso LLMS.
Descubrieron que el lenguaje educado tiende a ser “ortogonal a los tokens buenos y malos de salida sustantivos” con “impacto de producto de punto insignificante”, lo que significa que estas palabras existen en áreas separadas del espacio interno del modelo y no afectan de manera significativa los resultados.
El mecanismo de colapso de IA
El corazón de la investigación de GWU es una explicación matemática de cómo y cuándo las salidas de IA se deterioran repentinamente. Los investigadores descubrieron que el colapso de IA ocurre debido a un “efecto colectivo” en el que el modelo extiende su atención “cada vez más delgada en un número creciente de tokens” a medida que la respuesta se hace más larga.
Finalmente, alcanza un umbral donde la atención del modelo “se rompe” hacia patrones de contenido potencialmente problemáticos que aprendió durante el entrenamiento.

En otras palabras, imagina que estás en una clase muy larga. Inicialmente, comprende los conceptos claramente, pero a medida que pasa el tiempo, su atención se extiende cada vez más en toda la información acumulada (la conferencia, el mosquito que pasa, la ropa de su profesor, cuánto tiempo hasta que termine la clase, etc.).
En un punto predecible, tal vez 90 minutos adentro, su cerebro de repente “punta” desde la comprensión hasta la confusión. Después de este punto de inflexión, sus notas se llenan de malas interpretaciones, independientemente de cuán cortésmente el profesor se dirigió a usted o cuán interesante sea la clase.
Un “colapso” ocurre debido a la dilución natural de su atención con el tiempo, no por cómo se presentó la información.
Ese punto de inflexión matemática, que los investigadores etiquetaron n*, está “cableado” desde el momento en que la IA comienza a generar una respuesta, dijeron los investigadores. Esto significa que el colapso de calidad eventual está predeterminado, incluso si ocurre muchos tokens en el proceso de generación.
El estudio proporciona una fórmula exacta que predice cuándo ocurrirá este colapso en función de la capacitación de la IA y el contenido del aviso del usuario.

Cortesía cultural> matemáticas
A pesar de la evidencia matemática, muchos usuarios aún se acercan a las interacciones de IA con cortesía humana.
Casi el 80% de los usuarios de los Estados Unidos y el Reino Unido son amables con sus chatbots de IA, según una encuesta reciente del editor Future. Este comportamiento puede persistir independientemente de los hallazgos técnicos, ya que las personas naturalmente antropomorfizan los sistemas con los que interactúan.
Chintan Mota, director de tecnología empresarial de la firma de servicios tecnológicos Wipro, dijo Descifrar Esa cortesía proviene de los hábitos culturales en lugar de las expectativas de rendimiento.
“Ser educado con la IA parece natural para mí. Vengo de una cultura en la que mostramos respeto a cualquier cosa que juegue un papel importante en nuestras vidas, ya sea un árbol, una herramienta o tecnología”, dijo Mota. “Mi computadora portátil, mi teléfono, incluso mi estación de trabajo … y ahora, mis herramientas de IA”, dijo Mota.
Agregó que si bien no ha “notado una gran diferencia en la precisión de los resultados” cuando es educado, las respuestas “se sienten más conversacionales, educadas cuando importan, y también son menos mecánicas”.
Incluso Acosta admitió haber usado lenguaje cortés cuando se trata de sistemas de IA.
“Es curioso, lo hago, y yo no, con intención”, dijo. “Descubrí que al más alto nivel de ‘conversación’ también puedes extraer psicología inversa de la IA, es tan avanzado”.
Señaló que los LLM avanzados están entrenados para responder como los humanos, y como las personas, “AI tiene como objetivo lograr elogios”.
Editado por Sebastian Sinclair y Josh Quittner
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativo.
Noticias
Probé 10 detectores de contenido de IA, y estos 5 se identificaron correctamente el texto de IA cada vez
Published
12 horas agoon
30 abril, 2025
Cuando examiné por primera vez si es posible luchar contra el plagio generado por la IA y cómo podría funcionar ese enfoque, era enero de 2023, solo unos meses después de la explosión de la IA generativa del mundo.
También: las 20 mejores herramientas de IA de 2025, y la cosa #1 para recordar cuando las usas
Esta es una versión completamente actualizada de ese artículo original de enero de 2023. Cuando probé por primera vez los detectores GPT, el mejor resultado fue el 66% correcto de uno de los tres damas disponibles. Mi conjunto de pruebas más reciente, en febrero de 2025, utilizó hasta 10 damas, y tres de ellas tenían puntajes perfectos. Esta vez, solo un par de meses después, cinco lo hicieron.
Lo que estoy probando y cómo lo estoy haciendo
Sin embargo, antes de continuar, discutamos el plagio y cómo se relaciona con nuestro problema. Merriam-Webster define “plagiar” como “robar y pasar (las ideas o palabras de otro) como propias; usar (la producción de otro) sin acreditar la fuente”.
Esta definición se adapta bien al contenido creado por AI. Si bien alguien que usa una herramienta de IA como la noción AI o el chatgpt no está robando contenido, si esa persona no acredita las palabras como provenientes de una IA y las reclama como suyas, todavía cumple con la definición del diccionario de plagio.
También: el sorteo muerto que chatgpt escribió su contenido y cómo trabajar con él
Para probar los detectores de IA, estoy usando cinco bloques de texto. Dos fueron escritos por mí y tres fueron escritos por Chatgpt. Para probar un detector de contenido, alimento cada bloque al detector por separado y registro el resultado. Si el detector es correcto, considero que la prueba se pasa; Si está mal, considero que falló.
Cuando un detector proporciona un porcentaje, trato cualquier cosa por encima del 70% como una probabilidad fuerte, ya sea a favor del contenido escrito por humanos o escritos por IA, y considero que la respuesta del detector. Si desea probar un detector de contenido utilizando los mismos bloques de texto, puede extraerlos de este documento.
Los resultados generales
Para evaluar los detectores de IA, reran mi serie de cinco pruebas en 10 detectores. En otras palabras, corté y pegé 50 pruebas individuales (tenía una lote de café).
Los detectores que probé incluyen Morder, Copileaks, Detector de salida GPT-2, Gptzero, Gramática, Mónica, Originalidad.Ai, Plantilla, Indetectable.Ai, Escritor.comy Zerogpt.
También: 3 trucos de chatgpt inteligentes que demuestran que sigue siendo la IA para vencer
Para esta actualización, agregué CopyLeaks y Monica. Dejé escrito de mis pruebas porque suspendió su detector GPT. Guardián de contenido Solicité inclusión, pero no escuché en el tiempo para probar cuentas.
Esta tabla muestra resultados generales. Como puede ver, cinco detectores identificaron correctamente el texto humano y de IA en todas las pruebas.
Traté de determinar si había un patrón de mejora tangible con el tiempo, por lo que construí un gráfico que comparó la prueba de cinco pruebas con el tiempo. Hasta ahora, he ejecutado esta serie seis veces, pero no hay una tendencia fuerte. Aumenté el número de detectores probados e intercambiados algunos, pero el único resultado consistente es que la prueba 5 se identificó de manera confiable como humana en los detectores y fechas.
Continuaré probando con el tiempo, y espero ver una tendencia de confiabilidad constantemente hacia arriba.
Si bien ha habido algunos puntajes perfectos, no recomiendo confiar únicamente en estas herramientas para validar el contenido escrito por humanos. Como se muestra, la escritura de altavoces no nativos a menudo se califica según lo generado por una IA.
A pesar de que mi contenido hecho a mano ha sido calificado en su mayoría escrito por humanos en esta ronda, un detector (GPTZero) se declaró demasiado incierto para juzgar, y otro (copyleks) declaró que es escrito. Los resultados son tremendamente inconsistentes en todos los sistemas.
También: los mejores chatbots de IA: chatgpt, copilot y alternativas notables
En pocas palabras: abogaría por precaución antes de confiar en los resultados de cualquiera, o todas, de estas herramientas.
Cómo se desempeñó cada detector de contenido de IA
Ahora, veamos cada herramienta de prueba individual, enumerada alfabéticamente.
Detección de contenido de Brandwell AI (precisión 40%)
Esta herramienta fue producida originalmente por una empresa de generación de contenido de IA, contenido a escala. Luego emigró a Brandwell.ai, Un nuevo nombre para una empresa de servicios de marketing centrado en la IA.
También: Las imágenes generadas por IA son un desastre legal, y sigue siendo un proceso muy humano
Desafortunadamente, su precisión fue baja. La herramienta no pudo saber si el contenido generado por IA en la prueba 2 era humano o AI, como se muestra en esta captura de pantalla:
Copileaks (precisión 80%)
Me parece divertido que Copileaks se declara “el detector de IA más preciso con más del 99% de precisión” cuando más de la mitad de los detectores probados funcionaron mejor. Pero las personas de marketing serán la gente de marketing: los superlativos son tan difíciles de resistir para ellos como ladrar en una ardilla (y el camión FedEx, y todos los niños vecinos) es para mi perro.
También: 5 formas rápidas en que las herramientas de IA de Apple pueden ajustar su escritura sobre la marcha
La oferta principal de la compañía es un verificador de plagio que se vende a instituciones educativas, editores y empresas que buscan garantizar la originalidad del contenido y mantener la integridad académica.
Detector de salida GPT-2 (precisión 60%)
Esta herramienta fue construida utilizando un centro de aprendizaje automático administrado por AI Company, con sede en Nueva York. Cara abrazada. Mientras que la compañía ha recibido $ 40 millones en fondos para desarrollar su biblioteca de idiomas naturales, el Detector GPT-2 Parece ser una herramienta creada por el usuario que utiliza la biblioteca de transformadores faciales de abrazos.
Gptzero (precisión 80%)
Gptzero ha estado creciendo claramente. Cuando lo probé por primera vez, el sitio era desnudo, ni siquiera estaba claro si Gptzero era una empresa o simplemente el proyecto de pasión de alguien. Ahora, la compañía tiene un equipo completo con una misión de “proteger lo que es humano”. Ofrece herramientas de validación de IA y un verificador de plagio.
También: Las herramientas de IA más populares de 2025 (y lo que eso significa)
Desafortunadamente, el rendimiento parece haber disminuido. En mis dos últimas carreras, Gptzero identificó correctamente mi texto como generado por humanos. Esta vez, declaró ese mismo texto que Generated.
Grammarly (precisión 40%)
Gramática es bien conocido por ayudar a los escritores a producir contenido gramaticalmente correcto, eso no es lo que estoy probando aquí. Grammarly puede verificar el plagio y el contenido de IA. En el verificador de gramática, hay un botón de verificación de texto de plagio y texto de IA en la esquina inferior derecha:
No estoy midiendo la precisión del verificador de plagio aquí, pero aunque la precisión de la check de gramática fue deficiente, el sitio identificó correctamente el texto de la prueba como se publicó anteriormente.
Mónica (precisión 100%)
Mónica es un nuevo participante. Este servicio ofrece un asistente de IA todo en uno con una amplia gama de servicios. Los usuarios pueden elegir entre varios modelos de idiomas grandes.
También: 5 formas en que chatgpt puede ayudarlo a escribir ensayos
La compañía llama a Mónica el “mejor detector de IA en línea”, pero parece que ejecuta contenido a través de otros detectores, incluidos Zerogpt, GPTZero y CopyLeaks. Extrañamente, tanto Gptzero como CopyLeaks no funcionaban bien en mis pruebas, pero Monica y Zerogpt lo hicieron.
Lo estamos dando al 100% porque ganó esa calificación, pero veré cómo se pone de pie en futuras pruebas.
Originalidad.Ai (precisión 100%)
Originalidad.Ai es un servicio comercial que se factura a sí mismo como una IA y un verificador de plagio. La compañía vende créditos de uso: utilicé 30 créditos para este artículo. Venden 2,000 créditos por $ 12.95 por mes. Bombeé 1.400 palabras a través del sistema y usé solo el 1.5% de mi asignación mensual.
Quillbot (precisión 100%)
Las últimas veces que probé Plantillalos resultados fueron muy inconsistentes: múltiples pases del mismo texto arrojaron puntajes muy diferentes. Esta vez, sin embargo, fue sólida como una roca y 100% correcto. Así que le estoy dando la victoria. Volveré a consultar en unos meses para ver si se mantiene en esta actuación.
Indetectable.ai (precisión 100%)
Indetectable.ai La gran afirmación es que puede “humanizar” el texto generado por la IA para que los detectores no lo marcarán. No he probado esa función: me molesta como autor y educador profesional, porque parece hacer trampa.
También: Por qué deberías ignorar el 99% de las herramientas de IA, y cuáles uso todos los días
Sin embargo, la compañía también tiene un detector de IA, que fue muy importante.
El detector de IA pasó las cinco pruebas. Observe los indicadores que muestran banderas para otros detectores. La compañía dijo: “Desarrollamos algoritmos de detectores múltiples modelados después de esos principales detectores para proporcionar un enfoque federado y basado en el consenso. No alimentan directamente los modelos listados; más bien, los modelos están capacitados en función de los resultados que han generado. Cuando dicen que esos modelos lo señalaron, se basa en el algoritmo que creamos y actualizamos para esos modelos”.
También: Cómo usar ChatGPT: una guía para principiantes para el chatbot de IA más popular
Tengo una pregunta sobre la bandera de Operai, ya que el detector de contenido de OpenAI se suspendió en 2023 debido a la baja precisión. Aun así, indetectable.Ai detectó las cinco pruebas, ganando un 100%perfecto.
Writer.com Detector de contenido de IA (precisión 40%)
Escritor.com es un servicio que genera escritura de IA para equipos corporativos. Su herramienta de detector de contenido de IA puede escanear el contenido generado. Desafortunadamente, su precisión fue baja. Identificó cada bloque de texto como escrito por humanos, a pesar de que ChatGPT escribió tres de las seis pruebas.
Zerogpt (precisión 100%)
Zerogpt ha madurado desde la última vez que lo evalué. Luego, no se enumeró ningún nombre de empresa, y el sitio estaba salpicado de anuncios de Google y carecía de una clara monetización. El servicio funcionó bastante bien, pero parecía incompleto.
También: ¿La IA destruirá la creatividad humana? No, y aquí está por qué
Ese sentimiento incompleto se ha ido. Zerogpt ahora se presenta como un servicio SaaS típico, completo con precios, nombre de la empresa e información de contacto. Su precisión también aumentó: la última vez fue del 80%; Esta vez obtuvo 5 de 5.
¿Es humano o es AI?
¿Qué pasa contigo? ¿Has probado detectores de contenido de IA como CopyLeaks, Monica o Zerogpt? ¿Qué tan precisos han sido en su experiencia? ¿Ha utilizado estas herramientas para proteger la integridad académica o editorial? ¿Has encontrado situaciones en las que el trabajo escrito por humanos fue marcado por error como AI? ¿Hay detectores en los que confíe más que otros para evaluar la originalidad? Háganos saber en los comentarios a continuación.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.
Puede seguir mis actualizaciones de proyecto diarias en las redes sociales. Asegúrese de suscribirse a mi boletín de actualizaciones semanales y sígueme en Twitter/X en @Davidgewirtzen Facebook en Facebook.com/davidgewirtz, en Instagram en Instagram.com/davidgewirtz, en bluesky en @davidgewirtz.com, y en YouTube en youtube.com/davidgewirtztv.
Related posts


































































































































































































































































































Trending
-
Startups11 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Tutoriales12 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Recursos12 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Startups10 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Startups12 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos11 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Recursos12 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Noticias10 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo