Noticias

El estilo de IA de Deepseek coincide con el 74 por ciento de las veces de Chatgpt: nuevo estudio

Published

on

Un nuevo estudio encuentra un sorprendente 74.2% del texto escrito de Deepseek, revisado en la investigación, tiene una sorprendente semejanza estilística con las salidas ChatGPT de Openi. Los hallazgos sugieren que Deepseek pudo haber sido entrenado en las salidas de ChatGPT.

La firma de detección de IA CopyLeaks proporcionó el estudio exclusivamente para este artículo antes de su publicación planificada en el repositorio ARXIV.org de Cornell. Según la compañía, esta posible investigación podría tener implicaciones significativas para los derechos de propiedad intelectual, las regulaciones de IA y el desarrollo de la IA en el futuro.

Deepseek escrito de texto espejos de chatgpt estilo, no otros

El estudio de CopyLeaks utilizó tecnología de detección y clasificadores de algoritmo para detectar las huellas digitales estilísticas del texto escrito que produjeron varios modelos de idiomas, incluidos OpenAi, Claude, Gemini, Llama y Deepseek. Los clasificadores utilizaron un enfoque de votación unánime para reducir los falsos positivos y garantizar una alta precisión.

Curiosamente, si bien el texto escrito generado por la mayoría de los modelos se distinguió fácilmente como exclusivo de cada uno de ellos, una mayoría sustancial de los resultados de Deepseek se clasificó como generados por los modelos de OpenAI.

Shai Nisan, jefe de ciencia de datos de CopyLeaks, escribió en un intercambio de correo electrónico que el estudio fue similar a un experto en escritura a mano que intentaba identificar al autor de un manuscrito comparando el texto escrito a mano con otras muestras de varios escritores. En este caso, los resultados fueron sorprendentes y significativos.

“Nuestra investigación utilizó un enfoque de” jurado unánime “e identificó una fuerte similitud estilística entre los modelos de Deepseek y OpenAI, que no se encontró con otros modelos inspeccionados”, explicó.

Nisan agregó que esto plantea preguntas cruciales sobre cómo se entrenó a Deepseek y si aprovechó las salidas de OpenAI, potencialmente sin autorización.

“Si bien esta similitud no prueba ni declara definitivamente a Deepseek como un derivado, sí plantea preguntas sobre su desarrollo. Nuestra investigación se centra específicamente en el estilo de escritura; Dentro de ese dominio, la similitud con OpenAI es significativa. Teniendo en cuenta el líder del mercado de OpenAI, nuestros hallazgos sugieren que es necesaria una mayor investigación sobre la arquitectura de Deepseek, los datos de capacitación y el proceso de desarrollo “, escribió Nisan.

¿Se infringieron los derechos de propiedad intelectual de Chatgpt?

Si los datos de capacitación de Deepseek utilizaran textos generados por OpenAI sin una autorización adecuada, las implicaciones para los derechos de IP serían profundas. Tal escenario podría representar una violación de los términos de servicio de OpenAi y potencialmente su propiedad intelectual. La falta general de transparencia en los datos de capacitación de IA amplifica los problemas, destacando la necesidad de marcos regulatorios que impongan una divulgación clara de los conjuntos de datos de capacitación.

Nisan señaló que el impacto potencial en la industria de la IA podría ser de gran alcance.

“La investigación sugiere fuertemente que la transparencia y las protecciones de IP fuertes son primordiales en el futuro del desarrollo y la regulación de la IA. Es probable que los reguladores consideren exigir a las empresas que divulguen información detallada sobre los conjuntos de datos y los resultados del modelo utilizados en la capacitación de sus modelos ”, agregó.

Este problema se vuelve aún más preocupante a la luz del impacto del mercado de la innovación percibida de Deepseek y otras preguntas que rodean su tecnología. Por ejemplo, NVIDIA experimentó una pérdida significativa del valor de mercado poco después del anuncio innovador de Deepseek en enero de que su capacitación “novedosa” y las soluciones de inferencia rápidas requirieron una fracción de los costosos procesadores de IA de Nvidia en comparación con otros modelos de IA generativos.

Si la evidencia sugiera que la innovación de Deepseek se basara en el uso no autorizado de los resultados de OpenAI, las ramificaciones financieras y legales podrían ser significativas.

Los propios desafíos éticos y legales de Chatgpt

Si bien Operai ha enfrentado críticas por capacitar en grandes cantidades de contenido web sin permiso explícito, el potencial de que Deepseek haya reflejado el estilo de OpenAi introduce nuevas complejidades. Sugiere una laguna potencial en los marcos IP actuales, por lo que los modelos de IA pueden “aprender” de manera efectiva entre sí sin recursos legales.

Desde un punto de vista legal, la ausencia de precedentes establecidos dificulta la aplicación. Si bien las huellas digitales estilísticas de los modelos de IA pueden servir como una herramienta poderosa para identificar el uso del modelo no autorizado, no es una “pistola de fumar” para las acciones legales.

Sin embargo, estos hallazgos podrían catalizar los esfuerzos para definir los derechos de IP más claros y los estándares regulatorios para la capacitación y el desarrollo de la IA.

Deepseek y chatgpt Similarties podrían estar impulsadas por los datos

Un contraargumento a los hallazgos de CopyLeaks es la posibilidad de que los modelos de IA puedan converger estilísticamente con el tiempo, especialmente si están entrenados en conjuntos de datos superpuestos. Sin embargo, el método de conjunto unánime del estudio se diseñó específicamente para detectar diferencias estilísticas matizadas entre los modelos.

Esto sugiere que la similitud entre Deepseek y OpenAI no es simplemente un subproducto de la superposición del conjunto de datos, sino potencialmente indicativo de similitudes estructurales o de entrenamiento más profundas.

“Incluso si los modelos de lenguaje grande se basan en conjuntos de datos superpuestos, las huellas dactilares de IA permanecen cruciales. La gran variedad de elementos, como la arquitectura, los métodos de ajuste fino y las técnicas de generación, valen que cada LLM desarrolla un estilo de escritura distinto “, concluyó Nisan.

Quizás el tiempo y la detección de IA dirán

A medida que la IA continúa impregnando casi todos los aspectos de la vida moderna, la necesidad de regulaciones IP claras y estándares éticos se vuelve más necesaria e importante. En última instancia, se ha demostrado que Deepseek ha aprovechado las salidas de OpenAI sin autorización queda por ver.

Sin embargo, es probable que las preguntas planteadas por este tipo de investigación perduren y podrían dar forma al futuro del desarrollo y la regulación de la IA, impactando a Deepseek, ChatGPT y cualquier otro jugador en el espacio. Deepseek no respondió a una solicitud de comentarios al momento de la publicación.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version