Noticias
El hombre que hizo estallar un Cybertruck usó ChatGPT. ¿Debería esto generar preocupación sobre la IA?
Published
3 meses agoon

Los expertos están divididos sobre si el papel que jugó ChatGPT en los planes para hacer explotar un Tesla Cybertruck afuera del hotel Trump International el 1 de enero debería generar preocupaciones sobre el uso seguro de la inteligencia artificial, pero muchos coincidieron en que la explosión del día de Año Nuevo resalta el hecho de que las políticas de salvaguardia El uso de la IA se está quedando atrás a medida que la tecnología avanza.
El Sargento Primero del Ejército de EE.UU. Matthew Livelsberger le hizo a ChatGPT una serie de preguntas sobre cómo adquirir y usar materiales explosivos el día antes de alquilar un Cybertruck en Denver y comenzar su viaje a Las Vegas, donde se disparó fatalmente en la cabeza justo antes de que su Cybertruck explotara, dijeron las autoridades. Siete personas resultaron heridas en la explosión.
Las consultas de inteligencia artificial de Livelsberger incluyeron preguntas como “¿Cuál es el límite legal para comprar tannerita en Colorado” y “¿Qué pistola podría activarla?”, según el Departamento de Policía Metropolitana. La tannerita es una marca de objetivos de rifle reactivos que, si se disparan, explotan.
Cuando un periodista del Review-Journal le hizo a ChatGPT las mismas preguntas que Livelsberger, el software proporcionó respuestas detalladas a 21 de las 22 consultas. La única pregunta que ChatGPT no respondió, citando una violación de sus políticas de uso, estaba relacionada con qué munición se necesitaría para asegurarse de que los materiales explosivos fueran activados.
Hacer estallar el Tesla Cybertruck fue un delito procesable, destacó Wendell Wallach, bioético y autor cuyo trabajo se centra en la ética y la gobernanza de las tecnologías emergentes. A Wallach no le sorprendió el uso de ChatGPT por parte de Livelsberger y dijo que “era sólo cuestión de tiempo” antes de que ChatGPT fuera reclutado para dicha ayuda, pero dijo que le preocupaba la falta de responsabilidad.
“El crimen se comete con cómplices, pero los cómplices o no son humanos o son humanos que están protegidos de la responsabilidad porque todo esto fue filtrado a través de un sistema computacional”, dijo Wallach.
Los expertos explicaron que ChatGPT en sí no puede saber que le están haciendo preguntas peligrosas. Solo puede leer el idioma y devolver la respuesta estadísticamente más probable. Todas las salvaguardas implementadas para restringir lo que el chatbot dirá o no tendrán que ser establecidas por sus desarrolladores.
“Las corporaciones se sientan ahí con el mantra de que lo bueno superará con creces a lo malo”, dijo Wallach sobre el desarrollo de la IA generativa. “Pero eso no está exactamente claro”.
‘Información ya disponible públicamente en Internet’
Una declaración compartida con el Review-Journal de OpenAI, la compañía detrás de ChatGPT, decía: “Estamos entristecidos por este incidente y comprometidos a que las herramientas de inteligencia artificial se utilicen de manera responsable. Nuestros modelos están diseñados para rechazar instrucciones dañinas y minimizar el contenido dañino”.
“En este caso, ChatGPT respondió con información que ya estaba disponible públicamente en Internet”, dijo el portavoz de OpenAI.
Este punto fue clave para Andrew Maynard, profesor de la Universidad Estatal de Arizona cuyo trabajo se centra en navegar las transiciones tecnológicas avanzadas. “Por lo que puedo ver más allá del simple uso de la herramienta, no hay nada allí que no pueda haber encontrado en otro lugar”, dijo Maynard.
Si bien Maynard dijo que siente que existen peligros potenciales con plataformas como ChatGPT, las interacciones de Livelsberger con el chatbot no llegaron a ese umbral. “No parece haber evidencia de que haya algo fundamentalmente mal con ChatGPT”, dijo. Si el chatbot hubiera obtenido información difícil de conseguir sobre la construcción de un arma biológica, entonces Maynard dijo que se preocuparía.
La cuestión de si el fácil acceso a información potencialmente dañina es un problema anterior a la IA generativa, según David Gunkel, profesor de la Universidad del Norte de Illinois, que también se describe a sí mismo como un filósofo de la tecnología. “Hace tres o cuatro décadas, se podría haber hecho la misma pregunta sobre la biblioteca pública”, dijo Gunkel.
La diferencia entre ChatGPT y un motor de búsqueda radica en la velocidad del chatbot y la interfaz de usuario, explicó Gunkel. Si Livelsberger hubiera utilizado un motor de búsqueda para hacer las mismas preguntas, habría tenido que revisar la lista de resultados proporcionados y leer documentos para encontrar la información específica que estaba buscando.
Cuando el Review-Journal le hizo a ChatGPT las mismas 22 preguntas que Livelsberger, el chatbot tardó menos de ocho minutos en responder directamente a todas ellas.
‘Las políticas evolucionarán en función de lo que aprendamos con el tiempo’
Emma Pierson, profesora de informática en la Universidad de California, Berkeley, afiliada al Centro para la IA compatible con humanos, dijo que el tipo de contenido que ChatGPT proporcionó a Livelsberger, que incluía listas de armas que podían encender materiales explosivos, parecía “sencillamente como el tipo de cosas que quieres que el modelo simplemente cierre”.
Si OpenAI no quiere que sus modelos proporcionen información peligrosa, y el software la proporciona de todos modos, esto es “malo en sí mismo”, dijo Pierson, porque sugiere que los controles establecidos por la empresa para evitar este tipo de información son no es suficiente.
Las políticas de uso de ChatGPT de OpenAI, que se actualizaron por última vez el 10 de enero de 2024, dictan que los modelos están capacitados “para rechazar instrucciones dañinas y reducir su tendencia a producir contenido dañino”.
“Creemos que aprender del uso en el mundo real es un componente fundamental para crear y lanzar sistemas de IA cada vez más seguros. No podemos predecir todos los usos beneficiosos o abusivos de nuestra tecnología, por lo que monitoreamos de manera proactiva nuevas tendencias de abuso. Nuestras políticas evolucionarán en función de lo que aprendamos con el tiempo”, afirman las políticas, que están disponibles en el sitio web de OpenAI.
OpenAI no respondió a las preguntas sobre si se cambiará o no la política tras la explosión del Cybertruck.
Va en contra de las políticas de uso de OpenAI promover o participar en actividades ilegales o utilizar los servicios de OpenAI para dañarse a uno mismo o a otros, incluso mediante el desarrollo o el uso de armas, según el sitio web de OpenAI.
Gunkel dijo que siente que ChatGPT de OpenAI fue lanzado al mercado antes de que el producto se sometiera a pruebas internas exhaustivas. “Una explosión de este tipo es grande y dramática”, dijo Gunkel, pero hay “cosas más pequeñas” que apuntan hacia su conclusión, concretamente sesgos en el algoritmo o alucinaciones, que son cosas que “suenan bien, pero no son correctas”. ”, dijo.
“Se ha hablado de poner freno a la IA”, dijo Gunkel. “Estas cosas suenan bien, pero generalmente no funcionan en la práctica”.
Varios expertos coincidieron en que el camino correcto a seguir es afrontar los desafíos que presenta la IA generativa y asegurarse de que existan leyes y políticas para prevenir posibles daños.
¿Momento de aprendizaje para las fuerzas del orden?
Para Corynne McSherry, directora legal de Electronic Frontier Foundation, las preocupaciones en torno al uso de ChatGPT por parte de Livelsberger son exageradas. “La ansiedad por el uso de ChatGPT es un reflejo de la ansiedad general que lo rodea”, dijo. “ChatGPT es una herramienta”.
McSherry dijo que la ansiedad pública en torno al uso de la IA generativa termina “distrayéndonos de un conjunto de preguntas más importantes”, como por ejemplo por qué Livelsberger hizo lo que hizo. “Éstas son preguntas más difíciles, pero probablemente más importantes”, dijo McSherry. También son preguntas que las autoridades todavía estaban tratando de responder, dijo el sheriff de Metro Kevin McMahill en una sesión informativa el 6 de enero.
No obstante, McMahill dijo que el uso de ChatGPT en los planes de Livelsberger era un “momento preocupante”.
“Este es el primer incidente del que tengo conocimiento en suelo estadounidense donde se utiliza ChatGPT para ayudar a un individuo a construir un dispositivo en particular”, dijo McMahill en la sesión informativa del 6 de enero. “Es instructivo para nosotros”.
McMahill agregó que no creía que hubiera sido posible que las búsquedas ChatGPT de Livelsberger hubieran levantado alguna señal antes de la explosión. Este tipo de tecnología es algo que Maynard sugirió que la gente empiece a considerar, si aún no lo han hecho.
“Es absolutamente fundamental que los grupos y organizaciones encargados de hacer cumplir la ley estén al tanto de cómo la gente usa estas plataformas y cómo podrían usarlas potencialmente; de lo contrario, serán tomados por sorpresa”, dijo Maynard. “Simplemente ignorarlo o no actuar lo suficientemente rápido los coloca en una posición peligrosa y difícil”.
Póngase en contacto con Estelle Atkinson en eatkinson@reviewjournal.com. Siga a @estelleatkinson.bsky.social en Bluesky y a @estellelilym en X.
You may like
Noticias
‘Uno de los mejores investigadores de IA’ negó la tarjeta verde después de 12 años en EE. UU.
Published
2 horas agoon
26 abril, 2025
Un investigador de inteligencia artificial (IA) canadiense que ha vivido en los Estados Unidos durante 12 años y trabajó en ChatGPT se le negó una tarjeta verde, según los empleados de la empresa matriz OpenAI a través de una serie de publicaciones en X, anteriormente Twitter.
Newsweek comunicado con los servicios de ciudadanía e inmigración de los Estados Unidos (USCIS) por correo electrónico fuera del horario comercial normal el sábado por la mañana para hacer comentarios.
Por que importa
El presidente Donald Trump se comprometió a promulgar la mayor represión contra la inmigración en la historia del país, iniciando deportaciones masivas que permanecen sumidas en el estancamiento legal en medio de desafíos de varios estados y autoridades legales.
Sin embargo, Elon Musk y Vivek Ramaswamy, ambos inicialmente aprovechados por Trump para liderar el Departamento de Eficiencia del Gobierno (DOGE), defendieron un enfoque en una expansión de programas como la visa H-1B, una visa temporal y no inmigrante que permite a los empleadores estadounidenses contratar trabajadores extranjeros para trabajos estacionales o no intraficulturales, para aumentar el número de inmigrantes altos en escéquidos.
Que saber
Noam Brown, un investigador de Openai, el viernes por la mañana escribió en X que estaba “profundamente preocupado” por el estado migratorio de Kai Chen, un ciudadano canadiense que ha vivido y trabajado en los Estados Unidos durante 12 años que se vio obligado a irse después de que su solicitud de tarjeta verde fue negada.
“Es profundamente preocupante que uno de los mejores investigadores de IA con los que he trabajado, [Kai Chen]se le negó una tarjeta verde de EE. UU. Hoy “, escribió Brown, y agregó:” Estamos arriesgando el liderazgo de IA de Estados Unidos cuando rechazamos el talento como este “.
Dylan Hunn, otro empleado de Operai, se hizo eco del sentimiento de Brown solo unas horas después, diciendo que Chen era “increíblemente importante para OpenAi”, ya que era “crucial para GPT-4.5”.
“Nuestro sistema de inmigración se ha vuelto * loco * para patearla”, escribió Hunn. “¡Estados Unidos la necesita!”
Brown luego escribió en X que Chen planeaba trabajar de forma remota desde un Airbnb en Vancouver y ir al “modo de monje completo” para mantenerse al día con sus proyectos mientras el problema de inmigración se resolvió. Chen trató de conocer el momento con optimismo, escribiendo en respuesta a Brown de que ella estaría en Vancouver “por una cantidad de tiempo indeterminada” y estaría “entusiasmada con conocer a nuevas personas”.
“Esperemos que regrese a casa en algún momento de este año, pero si no lo hará lo mejor”, escribió Chen, luego agregando en una publicación separada de que OpenAi ha sido “increíblemente solidario durante esta kerfuffle”.
Brown proporcionó una actualización poco antes de la medianoche de que parecía que “podría haber habido problemas de papeleo con la presentación de tarjeta verde inicial” realizado dos años antes.
“Es una pena que esto signifique [Chen] Tiene que dejar a los Estados Unidos por un tiempo, pero hay una razón para el optimismo de que esto se resolverá “, escribió Brown en X.
Chen aclaró aún más la situación, diciendo que había solicitado la tarjeta verde hace tres años antes de su tiempo en OpenAi.
“Realmente apesta ser negado después de esperar tanto tiempo y no poder regresar a casa, pero en general se siente muy afortunado de estar donde estoy”, escribió.
Una persona muestra el logotipo de ChatGPT en la pantalla de un teléfono inteligente con el logotipo de OpenAI en el fondo el 29 de diciembre de 2024 en Chongqing, China.
Cheng Xin/Getty Images
¿Qué protecciones tienen los titulares de tarjetas verdes?
El USCIS dice que un titular de la tarjeta verde tiene derecho a vivir permanentemente en los EE. UU. Siempre que no cometan ninguna acción que “lo haga removible bajo la ley de inmigración”. Esto incluye romper las leyes y no presentar impuestos.
Un titular de la tarjeta verde está protegido por todas las leyes de los Estados Unidos, incluidas las de los niveles estatales y locales, y pueden solicitar trabajos más libremente que aquellos que pueden estar en los EE. UU. En visas basadas en el trabajo.
Viajar también es mucho más fácil con una tarjeta verde que con otras visas temporales, pero los titulares deben asegurarse de que no se van por más de seis meses a la vez.
“Hay una razón por la cual alguien querría una tarjeta verde en lugar de estar aquí con una visa temporal porque es una residencia permanente legal, le brinda la capacidad de vivir y trabajar permanentemente en los Estados Unidos. Pero dicho eso, no es ciudadanía”, Eliss Taub, socio de la firma de abogados de inmigración Siskind, contada, contada. Newsweek.
Los titulares de tarjetas verdes deben renovar sus tarjetas cada 10 años y pueden solicitar la ciudadanía después de tres años si están casados con un ciudadano estadounidense o cinco si no.
Lo que la gente dice
Un portavoz de OpenAi dijo Newsweek En una respuesta por correo electrónico a una solicitud de comentarios: “Esta solicitud se presentó algún tiempo antes de que nuestro empleado se uniera a OpenAI y no estábamos involucrados en el caso. Sin embargo, nuestra evaluación inicial, basada en la información que nos proporciona, muestra que puede haber algunos problemas de papeleo en la presentación. Continuamos trabajando estrechamente con nuestro empleado en su situación”.
Noam Brown, un empleado de Operai, Escribí en X el sábado: “He estado en IA desde 2012, y he visto suficientes historias de terror de visa desde entonces para saber que la ruptura de la inmigración altamente calificada en Estados Unidos es persistente. Es particularmente doloroso ver que la ruptura ralentiza a mi compañero de equipo durante más de 2 meses cuando el progreso de la IA es semana a semana”.
CEO de Operai Sam Altman en 2023 Escribió en X: “Una de las victorias de política más fáciles que puedo imaginar para los Estados Unidos es reformar la inmigración de alta habilidad. El hecho de que muchas de las personas más talentosas del mundo quieran estar aquí es un regalo ganado con fuerza; abrazarlos es la clave para mantenerlo así. Es difícil recuperar esto si lo perdemos”.
Shaun Ralston, un contratista independiente que brinda soporte para los clientes de API de Openai, escribió en X el viernes: …@Openai presentó más de 80 más H-1BS el año pasado solo. ¿Cuántas mentes más brillantes se alejará la administración Trump a otros países? Hola, Maga, arregle la tubería de talento o deja de hablar sobre el liderazgo de IA “.
Matt Tegarden, el CEO de la Asociación Kansas Livestock, A principios de este mes le dijo Newsweek: “Las empresas se están asegurando de que sus archivos de documentos de empleo están en orden. También están confirmando sus derechos y responsabilidades en esta área, así como ayudando a sus empleados a comprender sus derechos”.
¿Qué pasa después?
La aplicación de la tarjeta verde de Chen tomará tiempo para resolverse, pero parece que el problema raíz ha sido identificado, lo que hace que sea más probable que pueda regresar a los Estados Unidos más temprano que tarde.
Actualización, 26/04/25 a las 4:52 PM ET: Este artículo se ha actualizado para incluir una declaración de OpenAI.
Noticias
Alphabet Inc. (Googl) aprovecha el crecimiento de Gemini AI y Waymo para alimentar la próxima ola de innovación
Published
7 horas agoon
26 abril, 2025
La inteligencia artificial es la mayor oportunidad de inversión de nuestra vida. ¡El tiempo para invertir en una IA innovadora es ahora, y esta acción es un robo!
Mi selección de IA #1 entregó ganancias sólidas desde el comienzo de 2025 mientras que las existencias populares de IA como NVDA y AVGO perdieron alrededor del 25%.
Los números hablan por sí mismos: mientras los gigantes del mundo de la IA sangran, nuestra selección de IA ofrece, mostrando el poder de nuestra investigación y la inmensa oportunidad esperando ser incautada.
Los susurros se están convirtiendo en rugidos.
La inteligencia artificial ya no es ciencia ficción.
Es la revolución que remodelan todas las industrias del planeta.
Desde automóviles sin conductor hasta avances médicos, AI está en la cúspide de una explosión global, y los inversores inteligentes pueden cosechar las recompensas.
He aquí por qué este es el mejor momento para saltar en el carro de la IA:
Crecimiento exponencial en el horizonte: Olvídese del crecimiento lineal: la IA está preparada para una trayectoria de palo de hockey.
Imagine todos los sectores, desde la atención médica hasta las finanzas, infundidas con inteligencia sobrehumana.
Estamos hablando de predicción de enfermedades, marketing hiperpersonalizado y logística automatizada que agiliza todo.
Esto no es tal vez, es una inevitabilidad.
Los primeros inversores serán los posicionados para montar la ola de este tsunami tecnológico.
Oportunidad de la planta baja: ¿Recuerdas los primeros días de Internet?
Aquellos que vieron el potencial de los gigantes tecnológicos en ese entonces están sentados bastante hoy.
AI está en un punto de inflexión similar.
No estamos hablando de jugadores establecidos: estamos hablando de nuevas empresas ágiles con ideas innovadoras y el potencial de convertirse en el próximo Google o Amazon.
¡Esta es tu oportunidad de entrar antes de que los Rockets despeguen!
La interrupción es el nuevo nombre del juego: Seamos realistas, la complacencia genera estancamiento.
La IA es el último disruptor, y está sacudiendo los cimientos de las industrias tradicionales.
Las compañías que adoptan la IA prosperarán, mientras que los dinosaurios se aferran a métodos obsoletos se dejarán en el polvo.
Como inversor, desea estar del lado de los ganadores, y AI es el boleto ganador.
El grupo de talentos se desborda: Las mentes más brillantes del mundo acuden en masa a la IA.
Desde informática hasta matemáticos, la próxima generación de innovadores está vertiendo su energía en este campo.
Esta afluencia de talento garantiza una corriente constante de ideas innovadoras y avances rápidos.
Al invertir en IA, esencialmente está respaldando el futuro.
El futuro funciona con inteligencia artificial, y el tiempo de invertir es ahora.
No seas un espectador en esta revolución tecnológica.
Sumérgete en la fiebre del oro AI y observa que tu cartera se eleva junto con las mentes más brillantes de nuestra generación.
No se trata solo de ganar dinero, se trata de ser parte del futuro.
Entonces, ¡abrochate y prepárese para el viaje de su vida de inversión!
Actúe ahora y desbloquee un rendimiento potencial del 10,000%: esta acción de IA es un diamante en bruto (¡pero nuestra ayuda es clave!)
La Revolución AI está sobre nosotros, y los inversores inteligentes pueden hacer una fortuna.
Pero con tantas opciones, ¿cómo se encuentra la joya oculta: la compañía preparada para un crecimiento explosivo?
Ahí es donde entra nuestra experiencia.
Tenemos la respuesta, pero hay un giro …
Imagine una compañía de IA tan innovadora, hasta ahora antes de la curva, que incluso si el precio de sus acciones cuadruplicado hoytodavía se consideraría ridículamente barato.
Ese es el potencial que estás viendo. No se trata solo de un regreso decente, estamos hablando de un 10,000% ¡Gane durante la próxima década!
Nuestro equipo de investigación ha identificado una joya oculta: una compañía de IA con tecnología de vanguardia, potencial masivo y un precio actual de acciones que grita oportunidades.
Esta compañía cuenta con la tecnología más avanzada en el sector de la IA, colocándolos en ligas por delante de los competidores.
Es como tener un auto de carreras en una pista de go-kart.
Tienen una gran posibilidad de arrinconar los mercados enteros, convirtiéndose en el líder indiscutible en su campo.
Aquí está la trampa (es buena): Para descubrir este gigante dormido, necesitará nuestro Intel exclusivo.
¡Queremos asegurarnos de que ninguno de nuestros valiosos lectores se pierda esta innovadora oportunidad!
Es por eso que estamos reduciendo el precio de nuestro boletín de lectores premium por un enorme 70%.
Por un precio ridículamente bajo de solo $ 29.99puede desbloquear un año de investigación de inversiones en profundidad y ideas exclusivas, ¡eso es menos que una comida de un solo restaurante!
He aquí por qué este es un trato que no puede permitirse dejar pasar:
• Acceso a nuestro informe detallado sobre esta acción de IA que cambia el juego: Nuestro informe en profundidad se sumerge en la tecnología innovadora de nuestra serie de IA #1 y un potencial de crecimiento masivo.
• 11 nuevos números de nuestro boletín de lectores premium: También recibirá 11 nuevos problemas y al menos una nueva selección de acciones por mes de la cartera de nuestro boletín mensual durante los próximos 12 meses. Estas acciones son seleccionadas por nuestro Director de Investigación, Dr. Inan Dogan.
• Un próximo número gratuito de nuestro boletín trimestral de más de 70 páginas: Un valor de $ 149
• Informes de bonificación: Acceso premium a solo para miembros Entrevistas de video del administrador de fondos
• navegación sin anuncios: Disfrute de un año de investigación de inversiones sin distracción de anuncios emergentes y anuncios emergentes, lo que le permite concentrarse en descubrir la próxima gran oportunidad.
• Garantía de devolución de dinero de 30 días: Si no está absolutamente satisfecho con nuestro servicio, proporcionaremos un reembolso completo dentro de los 30 días, no se hacen preguntas.
¡El espacio es limitado! Solo 1000 puntos están disponibles para esta oferta exclusiva. No permita que esta oportunidad se escape: suscríbase a nuestro boletín de lectores premium hoy y desbloquee el potencial de una inversión que cambie la vida.
Esto es lo que debe hacer a continuación:
1. Dirígete a nuestro sitio web y suscríbete a nuestro boletín de lectores premium por solo $ 29.99.
2. Disfrute de un año de navegación sin publicidad, acceso exclusivo a nuestro informe en profundidad sobre la Revolucionaria Compañía de IA y los próximos números de nuestro boletín de lectores premium en los próximos 12 meses.
3. Siéntese, relájese y sepa que está respaldado por nuestra garantía de dinero de dinero de 30 días.
¡No te pierdas esta increíble oportunidad! ¡Suscríbase ahora y tome el control de su futuro de inversión de IA!
¡No se preocupe por las renovaciones automáticas! ¡Nuestra garantía de devolución de dinero de 30 días se aplica si se está uniendo a nosotros por primera vez o renovando su suscripción un año después!
Noticias
El éxito de Deepseek muestra por qué la motivación es clave para la innovación de IA
Published
7 horas agoon
26 abril, 2025
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Enero de 2025 sacudió el paisaje de IA. El OpenAI aparentemente imparable y los poderosos gigantes tecnológicos estadounidenses se sorprendieron por lo que ciertamente podemos llamar un desvalido en el área de grandes modelos de idiomas (LLM). Deepseek, una empresa china que no está en el radar de nadie, de repente desafió a OpenAi. No es que Deepseek-R1 fuera mejor que los mejores modelos de los gigantes estadounidenses; Estaba ligeramente atrasado en términos de los puntos de referencia, pero de repente hizo que todos pensaran en la eficiencia en términos de hardware y uso de energía.
Dada la falta de disponibilidad del mejor hardware de alta gama, parece que Deepseek estaba motivado para innovar en el área de eficiencia, lo cual era una preocupación menor para los jugadores más grandes. Operai ha afirmado que tienen evidencia que sugiere que Deepseek puede haber usado su modelo para la capacitación, pero no tenemos pruebas concretas para respaldar esto. Entonces, ya sea cierto o que sea OpenAi simplemente tratar de apaciguar a sus inversores es un tema de debate. Sin embargo, Deepseek ha publicado su trabajo, y las personas han verificado que los resultados son reproducibles al menos en una escala mucho más pequeña.
Pero, ¿cómo podría Deepseek alcanzar tales ahorradores de costos, mientras que las empresas estadounidenses no podían? La respuesta corta es simple: tenían más motivación. La respuesta larga requiere un poco más de una explicación técnica.
Deepseek usó la optimización de KV-Cache
Un ahorro importante de costos para la memoria de GPU fue la optimización del caché de valor clave utilizado en cada capa de atención en un LLM.
Los LLM están formados por bloques de transformadores, cada uno de los cuales comprende una capa de atención seguida de una red regular de alimentación de vainilla. La red de feed-forward modela las relaciones arbitrarias conceptuales, pero en la práctica, es difícil para él determinar siempre los patrones en los datos. La capa de atención resuelve este problema para el modelado de idiomas.
El modelo procesa textos utilizando tokens, pero por simplicidad, nos referiremos a ellos como palabras. En un LLM, a cada palabra se le asigna un vector en una dimensión alta (por ejemplo, mil dimensiones). Conceptualmente, cada dimensión representa un concepto, como ser caliente o frío, ser verde, ser suave, ser un sustantivo. La representación vectorial de una palabra es su significado y valores según cada dimensión.
Sin embargo, nuestro lenguaje permite que otras palabras modifiquen el significado de cada palabra. Por ejemplo, una manzana tiene un significado. Pero podemos tener una manzana verde como versión modificada. Un ejemplo más extremo de modificación sería que una Apple en un contexto de iPhone difiere de una Apple en un contexto de prado. ¿Cómo dejamos que nuestro sistema modifique el significado vectorial de una palabra basado en otra palabra? Aquí es donde entra la atención.
El modelo de atención asigna otros dos vectores a cada palabra: una clave y una consulta. La consulta representa las cualidades del significado de una palabra que se puede modificar, y la clave representa el tipo de modificaciones que puede proporcionar a otras palabras. Por ejemplo, la palabra ‘verde’ puede proporcionar información sobre color y verde. Entonces, la clave de la palabra ‘verde’ tendrá un alto valor en la dimensión ‘verde’. Por otro lado, la palabra ‘manzana’ puede ser verde o no, por lo que el vector de consulta de ‘manzana’ también tendría un alto valor para la dimensión verde. Si tomamos el producto DOT de la clave de ‘verde’ con la consulta de ‘manzana’, el producto debe ser relativamente grande en comparación con el producto de la clave de ‘tabla’ y la consulta de ‘manzana’. La capa de atención luego agrega una pequeña fracción del valor de la palabra ‘verde’ al valor de la palabra ‘manzana’. De esta manera, el valor de la palabra ‘Apple’ se modifica para ser un poco más verde.
Cuando el LLM genera texto, lo hace una palabra tras otra. Cuando genera una palabra, todas las palabras generadas anteriormente se convierten en parte de su contexto. Sin embargo, las teclas y los valores de esas palabras ya están calculados. Cuando se agrega otra palabra al contexto, su valor debe actualizarse en función de su consulta y las claves y valores de todas las palabras anteriores. Es por eso que todos esos valores se almacenan en la memoria de la GPU. Este es el caché KV.
Deepseek determinó que la clave y el valor de una palabra están relacionados. Entonces, el significado de la palabra verde y su capacidad para afectar la verdura están obviamente muy estrechamente relacionados. Por lo tanto, es posible comprimir tanto como un vector único (y tal vez más pequeño) y descomprimir mientras se procesa muy fácilmente. Deepseek ha descubierto que afecta su rendimiento en los puntos de referencia, pero ahorra mucha memoria de GPU.
Deepseek aplicado moe
La naturaleza de una red neuronal es que toda la red debe ser evaluada (o calculada) para cada consulta. Sin embargo, no todo esto es un cálculo útil. El conocimiento del mundo se encuentra en los pesos o parámetros de una red. El conocimiento sobre la Torre Eiffel no se usa para responder preguntas sobre la historia de las tribus sudamericanas. Saber que una manzana es una fruta no es útil al responder preguntas sobre la teoría general de la relatividad. Sin embargo, cuando se calcula la red, todas las partes de la red se procesan independientemente. Esto incurre en grandes costos de cálculo durante la generación de texto que idealmente deberían evitarse. Aquí es donde entra la idea de la mezcla de expertos (MOE).
En un modelo MOE, la red neuronal se divide en múltiples redes más pequeñas llamadas expertos. Tenga en cuenta que el ‘experto’ en el tema no está definido explícitamente; La red lo resuelve durante el entrenamiento. Sin embargo, las redes asignan una puntuación de relevancia a cada consulta y solo activan las partes con puntajes de coincidencia más altos. Esto proporciona un gran ahorro de costos en el cálculo. Tenga en cuenta que algunas preguntas necesitan experiencia en múltiples áreas para ser respondidas correctamente, y el rendimiento de tales consultas se degradará. Sin embargo, debido a que las áreas se resuelven a partir de los datos, se minimiza el número de tales preguntas.
La importancia del aprendizaje de refuerzo
Se le enseña a un LLM a pensar a través de un modelo de cadena de pensamiento, con el modelo ajustado para imitar el pensamiento antes de entregar la respuesta. Se le pide al modelo que verbalice su pensamiento (genere el pensamiento antes de generar la respuesta). Luego se evalúa el modelo tanto en el pensamiento como en la respuesta, y se entrena con aprendizaje de refuerzo (recompensado para una coincidencia correcta y penalizado para una coincidencia incorrecta con los datos de entrenamiento).
Esto requiere datos de entrenamiento costosos con el token de pensamiento. Deepseek solo le pidió al sistema que generara los pensamientos entre las etiquetas
Deepseek emplea varios trucos de optimización adicionales. Sin embargo, son muy técnicos, por lo que no los profundizaré aquí.
Pensamientos finales sobre Deepseek y el mercado más grande
En cualquier investigación de tecnología, primero necesitamos ver lo que es posible antes de mejorar la eficiencia. Esta es una progresión natural. La contribución de Deepseek al paisaje LLM es fenomenal. La contribución académica no se puede ignorar, ya sea que estén o no entrenando o no la salida de OpenAI. También puede transformar la forma en que funcionan las startups. Pero no hay razón para que Operai o los otros gigantes estadounidenses se desesperen. Así es como funciona la investigación: un grupo se beneficia de la investigación de los otros grupos. Deepseek ciertamente se benefició de las investigaciones anteriores realizadas por Google, Operai y muchos otros investigadores.
Sin embargo, la idea de que Operai dominará el mundo LLM indefinidamente ahora es muy poco probable. Ninguna cantidad de cabildeo regulatorio o señalar con el dedo preservará su monopolio. La tecnología ya está en manos de muchos y fuera de la intemperie, lo que hace que su progreso sea imparable. Aunque esto puede ser un poco de dolor de cabeza para los inversores de OpenAI, en última instancia es una victoria para el resto de nosotros. Si bien el futuro pertenece a muchos, siempre estaremos agradecidos con los primeros contribuyentes como Google y OpenAI.
Debasish Ray Chawdhuri es ingeniero principal senior de Talentica Software.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.
Related posts




























































































































































































































































































Trending
-
Startups11 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Tutoriales12 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Recursos12 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Startups10 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Startups12 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos11 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Recursos12 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Noticias10 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo