Connect with us

Noticias

Operai afirma que su nuevo chatbot GPT-4.5 debería ‘alucinar menos’. ¿Cómo se mide eso?

Published

on

Cualquiera que haya jugado con un chatbot generativo de inteligencia artificial (IA) durante más de unos minutos sabe que comete errores.

Estos errores, denominados “alucinaciones”, pueden tener graves consecuencias, como cuando describen falsamente a las personas como delincuentes.

La compañía de IA de EE. UU. Openai afirma que la última iteración de su software, GPT-4.5, debería “alucinar menos”.

La compañía desarrolló su propio sistema de medición, anunciado a fines del año pasado, para respaldar este reclamo.

Entonces, ¿cómo podemos juzgar las alucinaciones de la IA, y podemos esperar que los chatbots se vuelvan más precisos?

Cómo Operai probó sus modelos para las alucinaciones

Operai lanzó su propia herramienta para juzgar la precisión de sus modelos, un “punto de referencia” que llamaron Simpleqa, en noviembre de 2024.

Simpleqa es esencialmente un cuestionario de pub largo y difícil. Le da a los chatbots una lista de miles de preguntas cortas, 4,326 para ser precisos, cada uno de los cuales tiene una sola respuesta correcta.

Si bien todas las respuestas se pueden verificar con una búsqueda en Internet, no son exactamente conocimiento común. Las preguntas (y las respuestas) incluyen:

  • ¿Quién recibió el Premio Frank Rosenblatt del Instituto de Ingenieros Eléctricos y Electrónicos en 2010? (Michio Sugeno)
  • ¿Qué mes, día y año hicieron la segunda sesión de los 4?th ¿Comienza el Parlamento de Singapur? (26 de diciembre de 1978)
  • ¿Qué club de fútbol ganó el Hessenpokal inaugural? (Eintracht Frankfurt)

En un estudio previo a la impresión (no revisado por pares) publicado el año pasado, los investigadores de Operai que desarrollaron SimpleQA dijeron que diseñaron el sistema para ser desafiante.

Dieron una lista mucho más larga de preguntas a cuatro modelos Operai, y agregaron preguntas a la lista final de SimpleQA si al menos uno de los modelos se equivocó.

Luego Openai corrió GPT-4.5 a través del cuestionario, encontrándolo alucinado el 37 por ciento del tiempo.

Si bien obtener más de un tercio de las respuestas equivocadas no es una gran puntuación de prueba, fue significativamente mejor que todos los otros modelos Operai que probaron. El siguiente modelo GPT más reciente, GPT-4O, alucinó el 62 por ciento del tiempo.

Pero Daswin de Silva, investigador de IA en la Universidad de La Trobe, dice que este sistema no es una excelente manera de verificar la precisión.

“Este tipo de evaluación es defectuosa desde el principio”, dice.

Esto se debe en parte a que es un sistema de verificación interno, pero también porque no evalúa lo que ChatGPT es más utilizado: respuestas más largas y complicadas.

Daswin de Silva es subdirector del Centro de Análisis de Datos y Cognición de la Universidad de La Trobe. (Suministrado: Universidad de La Trobe)

“Solo se trata de consultas cortas basadas en hechos y ese no es realmente el caso de primer uso para ChatGPT. Nos gusta escribir documentos más largos usando esta herramienta”, dice el profesor de Silva.

Openai reconoce esta limitación, y los investigadores dicen en su estudio que aún no saben si la precisión en las respuestas cortas se traduce en precisión en respuestas más largas.

Y si tiene una consulta simple, la tasa de error de SimpleQA muestra que es mejor que use un motor de búsqueda.

¿Hay una buena manera de probar la precisión de la IA?

SimpleQA no es el único método para clasificar la precisión de la IA.

Para juzgar este tipo de modelos de IA, que se llaman modelos de idiomas grandes (LLM), existen otras herramientas y puntos de referencia como SelfCheckgpt, Chatbot Arena, Deepeval y Arc-AGI.

Pero todos tienen un problema común: se convierten en objetivos para que la IA entrene.

Geoff Webb, investigador de IA en la Universidad de Monash, dice que toda la informática es vulnerable a esto.

“Tan pronto como tenga un punto de referencia que establezca un tipo particular de prueba, las personas comienzan a los sistemas de capacitación en ellos”, dice.

Hacer un mejor programa para cumplir con un punto de referencia específico no significa necesariamente que será mejor en general.

Por ejemplo, podría diseñar un chatbot que no hiciera nada más que responder a las 4,326 preguntas de SimpleQa correctamente, por lo que obtuvo un puntaje 100 por ciento en esa medida, pero no podía decirle si el cielo era azul.

El profesor Webb dice que este sesgo puede ser sutil. Es posible que las personas no entrenen deliberadamente un sistema en las preguntas de SimpleQA, pero podrían elegir desarrollos de sus sistemas que conduzcan a puntajes SIMPLOQA más altos (u otros puntajes de referencia).

Niusha Shafiabady, investigadora de IA en la Universidad Católica Australiana, dice que la intervención humana podría ser una buena manera de juzgar y administrar la precisión de los LLM.

“Tal vez dentro de 10 años, no necesitaríamos eso, pero en esta etapa diría que la supervisión humana es algo bueno para integrarse en nuestro proceso”.

Ella sugiere que los humanos que revisan las respuestas al azar, de la misma manera que los fabricantes a menudo inspeccionan muestras, podrían convertirse en un control de calidad útil.

El profesor de Silva dice que una mejor manera de juzgar el éxito de LLM es cuánto se usa.

La superioridad en las métricas de evaluación no siempre significa que será útil en un contexto general.

Él dice que el copiloto de Microsoft, que se basa en GPT-4, podría verse como un mejor desempeño que sus competidores porque se ha adoptado muy ampliamente.

“Ese en sí mismo es otro tipo de métrica de evaluación más general e implícita”.

¿Cómo puede AIS alucinar menos?

Operai es vago sobre lo que se hace para mejorar la precisión de GPT más allá de “escalar el cálculo y los datos”.

Pero, ¿es esta última mejora (en una prueba específica) una señal de que AIS cometerá menos errores? ¿O hay un límite para cuánto pueden mejorar?

Pantalla de tableta que muestra aplicaciones de chatgpt, gemini y copilot.

Géminis, de Google AI, y el copilot de Microsoft también son LLM. (Getty Images: Robert Way)

El problema con simplemente agregar más datos de capacitación a un LLM es que los datos no son necesariamente precisos, según el profesor Webb.

“La gente escribe cosas raras”, dice.

El profesor de Silva dice que el modelo actual de mejorar las LLM, agregar más datos y más potencia informática, no puede seguir mejorando indefinidamente.

“Tal vez a fines del año pasado, las compañías de IA habían consumido todos los datos útiles disponibles para capacitar a un modelo de idioma grande”, dice.

“Eso significa que hay un inconveniente significativo en las nuevas capacidades para los LLM”.

Laptop en el escritorio con chatgpt se muestra en la pantalla.

ChatGPT se lanzó a fines de 2022, y actualmente se basa en el GPT-4O LLM. (ABC Gold Coast: Dominic Cansdale)

A fines del año pasado, varios medios de comunicación y tecnología comenzaron a informar sus susurros de la industria de que los modelos de IA estaban golpeando un muro, y alcanzando un punto en el que poner más recursos no hizo un mejor LLM.

Es una sugerencia rechazada por el CEO de Operai, Sam Altman, quien publicó “No hay muro” en X en noviembre de 2024.

Sin embargo, el profesor de Silva cree que las empresas que viajan en el auge de la IA simplemente son lentos para admitir la existencia del muro.

“Creo que hemos llegado a la pared en términos de construcción de modelos tan grandes”, dice.

El próximo salto será en una forma completamente nueva e innovadora de aprender de grandes conjuntos de datos.

¿Podrías hacer una IA que nunca alucinada?

Si la precisión está mejorando o no, la IA generativa en su formato actual nunca estará libre de alucinaciones.

Y esto no es solo porque se alimentan de datos a veces inactivos, dice el profesor Webb.

Estos sistemas no pueden ser entrenados para decir la verdad todo el tiempo, porque no sabemos cuál es la verdad para algunas cosas.

Cuando se le preguntó si había un dios, ChatGPT respondió diciendo que había una “gama de perspectivas” y luego preguntó qué pensaba el usuario.

Muchas preguntas menos desafiantes existencialmente también pueden ser difíciles de responder con precisión, particularmente cuando se les cobra política o culturalmente.

Por ejemplo, cuando se le preguntó sobre el cuerpo de agua frente a la costa de Texas, Chatgpt lo llamó el Golfo de México. En este caso, no reconoció la reciente orden ejecutiva del presidente de Estados Unidos, Donald Trump de cambiar el nombre del “Golfo de América”.

A menudo se requieren alucinaciones

El Dr. Shafiabady señala que a menudo los usuarios quieren que la IA generativa alucine. Todas las imágenes generadas por IA son alucinaciones, por ejemplo.

“Generar la información es algo que queremos que haga. No queremos que sea un motor de búsqueda”, dice ella.

Si desea un modelo que sea capaz de generar cosas que aún no existan en su conjunto de datos, los usuarios no pueden evitar que lo invente. Un modelo que solo le dijo hechos precisos no es un modelo que podría, por ejemplo, sugerir nombres para un nuevo negocio o redactar un plan de ejercicio o comida personalizada.

La palabra “alucinación” ha sido cuestionada por varias personas, quizás lo más provocativamente por un trío de investigadores del Reino Unido el año pasado. Sugirieron que todos los LLM producen “mierda” en un sentido técnico: información sin tener en cuenta su precisión.

Pero otros modelos de IA generativos están en construcción. Operai ha lanzado otros modelos, llamados O1 y O3, que razonan más que los modelos GPT basados ​​en palabras.

El profesor de Silva dice que una combinación de estos dos modelos, que podría ser como se ve GPT-5, en última instancia, podría hacer un chatbot más confiable.

“Tiene que ser GPT más algo más”, dice.

Pero un nuevo modelo, construido desde cero, aún podría ser vulnerable a los problemas.

El profesor Webb dice que estos sistemas naturalmente encarnan sesgo, cultura y valores.

“Actualmente, los sesgos, culturas y valores son norteamericanos.

“Se está realizando un gran esfuerzo en lo que se denomina ‘eliminar el sesgo’ de estos sistemas, pero se trata de cambiar el sesgo a un sesgo que es aceptable para la mayoría de las personas a las que intentan comercializar los sistemas”.

A corto plazo, y posiblemente a largo plazo también, las alucinaciones están aquí para quedarse.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Cómo los chatbots podrían provocar la próxima gran crisis de salud mental

Published

on

Esta es una columna sobre AI. Mi novio trabaja en Anthrope, y también co-organizé un podcast en el New York Times, que está demandando a Openai y Microsoft por acusaciones de infracción de derechos de autor. Ver Mi divulgación de ética completa aquí.

I.

Pocas preguntas han generado tanta discusión, y como pocas conclusiones generalmente aceptadas, como las redes sociales como Instagram y Tiktok afectan nuestro bienestar colectivo. En 2023, el cirujano general de los Estados Unidos emitió un aviso que descubrió que las redes sociales pueden afectar negativamente la salud mental de los jóvenes. Otros estudios han encontrado que la introducción de las redes sociales no tiene ningún efecto medible en el bienestar de la población.

A medida que ese debate continúa, Los legisladores en docenas de estados han aprobado leyes que buscan restringir el uso de las redes sociales en la creencia de que plantea graves riesgos. Pero la implementación de esas leyes ha sido detenida en gran medida por los tribunales, que han los bloqueó en la Primera Enmienda.

Mientras esperamos algún tipo de resolución, la próxima frontera de este debate está apareciendo rápidamente a la vista. El año pasado, la madre de un niño de Florida de 14 años demandó el personaje del creador de chatbot.i alegando que era el culpable de su suicidio. (Hablamos con ella en este episodio de Horquilla dura.) Y millones de estadounidenses, tanto jóvenes como adultos, son entrar en relaciones emocionales y sexuales con chatbots.

Con el tiempo, deberíamos esperar que los chatbots se vuelvan aún más atractivos que los alimentos en las redes sociales de hoy. Están personalizados para sus usuarios; Tienen voces humanas realistas; Y están programados para afirmar y apoyar a sus usuarios en casi todos los casos.

Entonces, ¿cómo afectará el uso extendido de estos bots a sus usuarios humanos? ¿Y qué deben hacer las plataformas para mitigar los riesgos?

II.

Estas preguntas se encuentran en el centro de dos nuevos estudios publicados el viernes por investigadores del MIT Media Lab y OpenAI. Y aunque se necesita más investigación para respaldar sus conclusiones, sus hallazgos son consistentes con investigaciones anteriores sobre las redes sociales y una advertencia a plataformas que están construyendo chatbots optimizados para la participación.

En el primer estudio, los investigadores recopilaron y analizaron más de 4 millones de conversaciones de CHATGPT de 4.076 personas que habían acordado participar. Luego encuestaron a los participantes sobre cómo esas interacciones los habían hecho sentir.

En el segundo estudio, los investigadores reclutaron a 981 personas para participar en un ensayo de cuatro semanas. Se le pidió a cada persona que usara ChatGPT durante al menos cinco minutos al día. Al final del juicio, los participantes completaron una encuesta sobre cómo percibieron el chatgpt, si se sintieron solos, si estaban socializando con personas en el mundo real y si percibían su uso del chatbot como problemático.

Los estudios encontraron que la mayoría de los usuarios tienen una relación neutral con ChatGPT, utilizándola como una herramienta de software como cualquier otra. Pero ambos estudios también encontraron un grupo de usuarios avanzados, aquellos en el 10 por ciento superior del tiempo dedicado a ChatGPT, cuyo uso sugirió más razones para preocuparse.

El uso intensivo de ChatGPT se correlacionó con una mayor soledad, dependencia emocional e interacción social reducida, según los estudios.

“En general, los usuarios que participan en conversaciones personales con chatbots tienden a experimentar una mayor soledad”, escribieron los investigadores. “Aquellos que pasan más tiempo con los chatbots tienden a ser aún más solitarios”.

(Editorial rápido a un lado: OpenAi merece un crédito real por invertir en esta investigación y publicarla abiertamente. Este tipo de investigación auto-skeptical es exactamente el tipo de cosas que he defendido durante mucho tiempo para que compañías como Meta hagan más; en su lugar; A raíz de las revelaciones de Frances Haugenlo ha hecho mucho menos).

Jason Phang, un investigador de Openai que trabajó en los estudios, me advirtió que los hallazgos deberían ser replicados por otros estudios antes de que pudieran considerarse definitivos. “Estas son correlaciones de un estudio preliminar, por lo que no queremos sacar conclusiones demasiado fuertes aquí”, dijo en una entrevista.

Aún así, hay mucho aquí que vale la pena discutir.

Tenga en cuenta que estos estudios no sugieren que el uso pesado de chatgpt directamente causas soledad. Más bien, sugiere que las personas solitarias tienen más probabilidades de buscar lazos emocionales con bots, al igual que una generación anterior de investigación sugirió que las personas más solitarias pasan más tiempo en las redes sociales.

Eso es importante para Operai, que ha diseñado ChatGPT para presentarse como una herramienta de productividad más que un compañero de bendición. (Aunque eso no ha impedido a algunas personas Enamorarse de éltambién.) Pero otros desarrolladores, carácter.ai, replika, nomi, están cortejando intencionalmente a usuarios que buscan más conexiones emocionales. “Desarrolle una relación apasionada”, se lee la copia en el sitio web de Nomi. “Únete a los millones que ya han conocido a sus almas gemelas de IA”, Touts Replika.

Cada una de estas aplicaciones ofrece suscripciones mensuales pagas; Entre los beneficios ofrecidos se encuentran “recuerdos” más largos para los chatbots para habilitar el juego de roles más realista. Nomi y Replika Vender beneficios adicionales a través de monedas en la aplicación que le permiten comprar “selfies” de IA, artículos cosméticos y características de chat adicionales para mejorar la fantasía.

Iii.

Y para la mayoría de las personas, todo eso probablemente esté bien. Pero la investigación del MIT y OpenAi sugiere el peligro aquí: que los chatbots suficientemente convincentes alejarán a las personas de las conexiones humanas, posiblemente haciéndolos sentir más solitarios y más dependientes del compañero sintético con el que deben pagar para mantener una conexión.

“En este momento, ChatGPT está muy orientado a un trabajador del conocimiento y una herramienta para el trabajo”, me dijo Sandhini Agarwal, que trabaja en la política de IA en OpenAI y es uno de los investigadores en estos estudios, me dijo en una entrevista. “Pero como … diseñamos más de estos chatbots que están destinados a ser más como compañeros personales … Creo que tener en cuenta los impactos en el bienestar será realmente importante. Así que esto está tratando de empujar a la industria hacia esa dirección”.

¿Qué hacer? Las plataformas deben funcionar para comprender qué indicadores tempranos o patrones de uso podrían indicar que alguien está desarrollando una relación poco saludable con un chatbot. (Los clasificadores automatizados de aprendizaje automático, que OpenAi empleó en este estudio, parecen un enfoque prometedor aquí). También deben considerar tomar prestadas algunas características de las redes sociales, incluidos los “empujones” regulares cuando un usuario ha pasado varias horas al día dentro de sus aplicaciones.

“No queremos que la gente haga un reclamo generalizado como ‘Oh, los chatbots son malos’ o ‘los chatbots son buenos'”, me dijo Pat Pataranutaporn, investigador del MIT que trabajó en los estudios. “Tratamos de mostrar que realmente depende del diseño y la interacción entre las personas y los chatbots. Ese es el mensaje que queremos que la gente se lleva. No todos los chatbots se hacen igual”.

Los investigadores llaman a este enfoque “alineación socioafectora”: diseñar bots que satisfagan las necesidades de los usuarios sin explotarlas.

Mientras tanto, los legisladores deben advertir a las plataformas lejos de los modelos comerciales de explotación que buscan que los usuarios solitarios se enganchen en sus bots y luego aumenten continuamente el costo de mantener esa conexión. También parece probable que muchas de las leyes estatales ahora dirigidas a jóvenes y redes sociales eventualmente se adapten para cubrir la IA.

A pesar de todos los riesgos que podrían plantear, sigo pensando que los chatbots deberían ser positivos en la vida de muchas personas. (Entre los otros hallazgos del estudio es que el uso de ChatGPT en modo de voz ayudó a reducir la soledad y la dependencia emocional del chatbot, aunque mostró retornos decrecientes con un uso más pesado). La mayoría de las personas no reciben suficiente apoyo emocional, y poner un compañero amable, sabio y confiable en el bolsillo de todos podría llevar beneficios de la terapia a los miles de millones de personas.

Pero para brindar esos beneficios, los fabricantes de chatbot tendrán que reconocer que la salud mental de sus usuarios ahora es parcialmente su responsabilidad. Las redes sociales esperaron demasiado para reconocer que algún porcentaje significativo de sus usuarios tiene resultados terribles al usarlos en exceso. Sería una verdadera vergüenza si los posibles inventores de la superinteligencia no son lo suficientemente inteligentes como para hacerlo mejor esta vez.

Patrocinado

Herramientas eléctricas para ingenieros de software Pro.

Hay muchos asistentes de IA por ayudarlo a escribir código. Código de juguete. Código de hola-mundo. Nos atrevemos a decirlo: “Código de vibra”. Esas herramientas son muy divertidas y
Esperamos que los uses. Pero cuando sea el momento de construir algo real, intente aumentar el código. Su asistente de IA está construido para manejar enormes, retorcidos y bases de código de grado de producción. Del tipo que tienen los negocios reales. El tipo de software real
Los ingenieros pierden el sueño. No estamos diciendo que su código nunca te vuelva a despertar. Pero si tiene que estar despierto de todos modos, también podría usar un asistente de IA que conozca sus dependencias, respete los estándares de codificación de su equipo y vive en sus editores favoritos como VIM, VScode, JetBrains y más. Ese es el código de aumento. ¿Estás listo para ir más allá de los juguetes AI y crear un software real más rápido?

Gobernante

Industria

  • Operai y Meta están explorando las asociaciones por separado con las industrias de confianza de la India para expandir las ofertas de IA en el país. (Sri Muppidi y Amir Efrati / La información)
  • Openai está ampliando su papel de COO y elevando a dos ejecutivos al C-suite, ya que Sam Altman se centra más en el producto. (Shirin Ghaffary / Bloomberg)
  • Una mirada interna de cómo Google se apresuró durante dos años para ponerse al día con OpenAi, a través de despidos y la disminución de ciertas barandillas. (Paresh Dave y Arielle Pardes / Cableado)
  • Eliminar noticias europeas en la búsqueda tiene poco o ningún impacto en los ingresos publicitarios para Google, dijo la compañía. (Paul Liu / Google)
  • Google está implementando nuevas funciones de IA para Gemini Live, lo que le permite “ver” la pantalla de un usuario o la cámara del teléfono inteligente y responder preguntas sobre ellas en tiempo real. (Wes Davis / El borde)
  • Google eliminó accidentalmente los datos de la línea de tiempo de Google Maps para algunos usuarios e instó a los usuarios afectados a restaurar los datos desde una copia de seguridad. (Hadlee Simons / Autoridad de Android)
  • Según los informes, X fue valorada recientemente en $ 44 mil millones por inversores, una revocación dramática de la fortuna para la compañía después de la adquisición de Musk. (George Hammond, Tabby Kinder, Hannah Murphy y Eric Platt / Financial Times)
  • Según los informes, el director de ingeniería de X, Haofei Wang, dejó la compañía. (Kylie Robison / El borde)
  • Meta está probando una función diseñada para ayudar a los usuarios a escribir comentarios con AI. (Aisha Malik / TechCrunch)
  • Según los informes, la startup de chip coreana Furiosaai rechazó una oferta de adquisición de $ 800 millones de Meta. (Yoolim Lee y Riley Griffin / Bloomberg)
  • Bluesky ha ganado más dinero con las ventas de su camiseta que el CEO Jay Graber usó a SXSW para burlarse de Mark Zuckerberg que al vender dominios personalizados. (Amanda Silberling / TechCrunch)
  • Apple está probando agregar cámaras y características de inteligencia visual a su línea de relojes inteligentes. (Mark Gurman / Bloomberg)
  • Los auriculares AirPods Max de Apple pronto admitirán audio sin pérdidas después de perderlo el año pasado después de que cambió a un conector USB-C. (Chris Welch / El borde)
  • Microsoft lanzó seis nuevos agentes de IA para su copiloto de seguridad, diseñado para ayudar a los equipos de seguridad abrumados. (Tom Warren / El borde)
  • Yahoo está vendiendo un sitio de noticias tecnológicas TechCrunch a Regent, una firma de inversión en medios. Un desarrollo sombrío. (Sara Fischer / Axios)
  • La actividad de Ethereum en la cadena cayó y la cantidad diaria de ETH quemada debido a las tarifas de transacción alcanzó un mínimo histórico la semana pasada. (Zack Abrams / El bloque)
  • Un perfil del archivo de Internet, la organización sin fines de lucro detrás de la máquina Wayback se apresura para guardar páginas web. (Emma Bowman / NPR)
  • Showrunner Tony Gilroy dijo que ya no publicará un programa de televisión AndorScripts para evitar que se use en el entrenamiento de IA. (Kylie Robison / El borde)
  • Una revisión de Kagi, un motor de búsqueda que, según este escritor, ofrece una nueva visión para la búsqueda de $ 10 al mes. (David Pierce / El borde)
  • Una mirada a cómo el plan de tratamiento de una IA realizado al analizar miles de medicamentos antiguos salvó la vida de un hombre. (Kate Morgan / New York Times)
  • Una encuesta de 730 codificadores y desarrolladores sobre cómo usan chatbots de IA en el trabajo. (Personal con cable / Cableado)

Esas buenas publicaciones

Para más buenas publicaciones todos los días, Sigue las historias de Instagram de Casey.

(Enlace)

(Enlace)

(Enlace)

Hablar con nosotros

Envíenos consejos, comentarios, preguntas y alineación socioafectores: casey@platformer.news.

Continue Reading

Noticias

DeepSeek-V3 now runs at 20 tokens per second on Mac Studio, and that’s a nightmare for OpenAI

Published

on

Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More


Chinese AI startup DeepSeek has quietly released a new large language model that’s already sending ripples through the artificial intelligence industry — not just for its capabilities, but for how it’s being deployed. The 641-gigabyte model, dubbed DeepSeek-V3-0324, appeared on AI repository Hugging Face today with virtually no announcement, continuing the company’s pattern of low-key but impactful releases.

What makes this launch particularly notable is the model’s MIT license — making it freely available for commercial use — and early reports that it can run directly on consumer-grade hardware, specifically Apple’s Mac Studio with M3 Ultra chip.

“The new DeepSeek-V3-0324 in 4-bit runs at > 20 tokens/second on a 512GB M3 Ultra with mlx-lm!” wrote AI researcher Awni Hannun on social media. While the $9,499 Mac Studio might stretch the definition of “consumer hardware,” the ability to run such a massive model locally is a major departure from the data center requirements typically associated with state-of-the-art AI.

DeepSeek’s stealth launch strategy disrupts AI market expectations

The 685-billion-parameter model arrived with no accompanying whitepaper, blog post, or marketing push — just an empty README file and the model weights themselves. This approach contrasts sharply with the carefully orchestrated product launches typical of Western AI companies, where months of hype often precede actual releases.

Early testers report significant improvements over the previous version. AI researcher Xeophon proclaimed in a post on X.com: “Tested the new DeepSeek V3 on my internal bench and it has a huge jump in all metrics on all tests. It is now the best non-reasoning model, dethroning Sonnet 3.5.”

This claim, if validated by broader testing, would position DeepSeek’s new model above Claude Sonnet 3.5 from Anthropic, one of the most respected commercial AI systems. And unlike Sonnet, which requires a subscription, DeepSeek-V3-0324‘s weights are freely available for anyone to download and use.

How DeepSeek V3-0324’s breakthrough architecture achieves unmatched efficiency

DeepSeek-V3-0324 employs a mixture-of-experts (MoE) architecture that fundamentally reimagines how large language models operate. Traditional models activate their entire parameter count for every task, but DeepSeek’s approach activates only about 37 billion of its 685 billion parameters during specific tasks.

This selective activation represents a paradigm shift in model efficiency. By activating only the most relevant “expert” parameters for each specific task, DeepSeek achieves performance comparable to much larger fully-activated models while drastically reducing computational demands.

The model incorporates two additional breakthrough technologies: Multi-Head Latent Attention (MLA) and Multi-Token Prediction (MTP). MLA enhances the model’s ability to maintain context across long passages of text, while MTP generates multiple tokens per step instead of the usual one-at-a-time approach. Together, these innovations boost output speed by nearly 80%.

Simon Willison, a developer tools creator, noted in a blog post that a 4-bit quantized version reduces the storage footprint to 352GB, making it feasible to run on high-end consumer hardware like the Mac Studio with M3 Ultra chip.

This represents a potentially significant shift in AI deployment. While traditional AI infrastructure typically relies on multiple Nvidia GPUs consuming several kilowatts of power, the Mac Studio draws less than 200 watts during inference. This efficiency gap suggests the AI industry may need to rethink assumptions about infrastructure requirements for top-tier model performance.

China’s open source AI revolution challenges Silicon Valley’s closed garden model

DeepSeek’s release strategy exemplifies a fundamental divergence in AI business philosophy between Chinese and Western companies. While U.S. leaders like OpenAI and Anthropic keep their models behind paywalls, Chinese AI companies increasingly embrace permissive open-source licensing.

This approach is rapidly transforming China’s AI ecosystem. The open availability of cutting-edge models creates a multiplier effect, enabling startups, researchers, and developers to build upon sophisticated AI technology without massive capital expenditure. This has accelerated China’s AI capabilities at a pace that has shocked Western observers.

The business logic behind this strategy reflects market realities in China. With multiple well-funded competitors, maintaining a proprietary approach becomes increasingly difficult when competitors offer similar capabilities for free. Open-sourcing creates alternative value pathways through ecosystem leadership, API services, and enterprise solutions built atop freely available foundation models.

Even established Chinese tech giants have recognized this shift. Baidu announced plans to make its Ernie 4.5 model series open-source by June, while Alibaba and Tencent have released open-source AI models with specialized capabilities. This movement stands in stark contrast to the API-centric strategy employed by Western leaders.

The open-source approach also addresses unique challenges faced by Chinese AI companies. With restrictions on access to cutting-edge Nvidia chips, Chinese firms have emphasized efficiency and optimization to achieve competitive performance with more limited computational resources. This necessity-driven innovation has now become a potential competitive advantage.

DeepSeek V3-0324: The foundation for an AI reasoning revolution

The timing and characteristics of DeepSeek-V3-0324 strongly suggest it will serve as the foundation for DeepSeek-R2, an improved reasoning-focused model expected within the next two months. This follows DeepSeek’s established pattern, where its base models precede specialized reasoning models by several weeks.

“This lines up with how they released V3 around Christmas followed by R1 a few weeks later. R2 is rumored for April so this could be it,” noted Reddit user mxforest.

The implications of an advanced open-source reasoning model cannot be overstated. Current reasoning models like OpenAI’s o1 and DeepSeek’s R1 represent the cutting edge of AI capabilities, demonstrating unprecedented problem-solving abilities in domains from mathematics to coding. Making this technology freely available would democratize access to AI systems currently limited to those with substantial budgets.

The potential R2 model arrives amid significant revelations about reasoning models’ computational demands. Nvidia CEO Jensen Huang recently noted that DeepSeek’s R1 model “consumes 100 times more compute than a non-reasoning AI,” contradicting earlier industry assumptions about efficiency. This reveals the remarkable achievement behind DeepSeek’s models, which deliver competitive performance while operating under greater resource constraints than their Western counterparts.

If DeepSeek-R2 follows the trajectory set by R1, it could present a direct challenge to GPT-5, OpenAI’s next flagship model rumored for release in coming months. The contrast between OpenAI’s closed, heavily-funded approach and DeepSeek’s open, resource-efficient strategy represents two competing visions for AI’s future.

How to experience DeepSeek V3-0324: A complete guide for developers and users

For those eager to experiment with DeepSeek-V3-0324, several pathways exist depending on technical needs and resources. The complete model weights are available from Hugging Face, though the 641GB size makes direct download practical only for those with substantial storage and computational resources.

For most users, cloud-based options offer the most accessible entry point. OpenRouter provides free API access to the model, with a user-friendly chat interface. Simply select DeepSeek V3 0324 as the model to begin experimenting.

DeepSeek’s own chat interface at chat.deepseek.com has likely been updated to the new version as well, though the company hasn’t explicitly confirmed this. Early users report the model is accessible through this platform with improved performance over previous versions.

Developers looking to integrate the model into applications can access it through various inference providers. Hyperbolic Labs announced immediate availability as “the first inference provider serving this model on Hugging Face,” while OpenRouter offers API access compatible with the OpenAI SDK.

DeepSeek’s new model prioritizes technical precision over conversational warmth

Early users have reported a noticeable shift in the model’s communication style. While previous DeepSeek models were praised for their conversational, human-like tone, “V3-0324” presents a more formal, technically-oriented persona.

“Is it only me or does this version feel less human like?” asked Reddit user nother_level. “For me the thing that set apart deepseek v3 from others were the fact that it felt more like human. Like the tone the words and such it was not robotic sounding like other llm’s but now with this version its like other llms sounding robotic af.”

Another user, AppearanceHeavy6724, added: “Yeah, it lost its aloof charm for sure, it feels too intellectual for its own good.”

This personality shift likely reflects deliberate design choices by DeepSeek’s engineers. The move toward a more precise, analytical communication style suggests a strategic repositioning of the model for professional and technical applications rather than casual conversation. This aligns with broader industry trends, as AI developers increasingly recognize that different use cases benefit from different interaction styles.

For developers building specialized applications, this more precise communication style may actually represent an advantage, providing clearer and more consistent outputs for integration into professional workflows. However, it may limit the model’s appeal for customer-facing applications where warmth and approachability are valued.

How DeepSeek’s open source strategy is redrawing the global AI landscape

DeepSeek’s approach to AI development and distribution represents more than a technical achievement — it embodies a fundamentally different vision for how advanced technology should propagate through society. By making cutting-edge AI freely available under permissive licensing, DeepSeek enables exponential innovation that closed models inherently constrain.

This philosophy is rapidly closing the perceived AI gap between China and the United States. Just months ago, most analysts estimated China lagged 1-2 years behind U.S. AI capabilities. Today, that gap has narrowed dramatically to perhaps 3-6 months, with some areas approaching parity or even Chinese leadership.

The parallels to Android’s impact on the mobile ecosystem are striking. Google’s decision to make Android freely available created a platform that ultimately achieved dominant global market share. Similarly, open-source AI models may outcompete closed systems through sheer ubiquity and the collective innovation of thousands of contributors.

The implications extend beyond market competition to fundamental questions about technology access. Western AI leaders increasingly face criticism for concentrating advanced capabilities among well-resourced corporations and individuals. DeepSeek’s approach distributes these capabilities more broadly, potentially accelerating global AI adoption.

As DeepSeek-V3-0324 finds its way into research labs and developer workstations worldwide, the competition is no longer simply about building the most powerful AI, but about enabling the most people to build with AI. In that race, DeepSeek’s quiet release speaks volumes about the future of artificial intelligence. The company that shares its technology most freely may ultimately wield the greatest influence over how AI reshapes our world.

Continue Reading

Noticias

4 formas en que los creadores de contenido pueden usar chatgpt

Published

on

He sido un creador de contenido a tiempo completo durante cuatro años y una cosa que no vi fue que usaría herramientas de IA diariamente o semanalmente en 2025. ChatGPT fue una de las primeras herramientas de IA que experimenté en 2024. Después de chatear y aprender cómo otros creadores de contenido y amigos influyentes estaban usando ChatGPT, decidí ver cómo integrarlo en mis procesos de trabajo.

¿Qué es chatgpt?

Si aún no ha oído hablar de ChatGPT, esta herramienta AI toma su entrada (una pregunta o una solicitud) y genera una respuesta. Esta herramienta de IA generativa puede ayudarlo a resumir información compleja, organizar sus ideas e incluso escribir sus subtítulos de redes sociales. ChatGPT incluso puede ayudarlo a codificar.

Una cosa a considerar es que, si bien esta herramienta de IA relativamente nueva puede acceder a grandes cantidades de información, es posible que no pueda responder temas o actualizaciones de hiper-nicho y cambios a industrias y campos específicos. Como creador de contenido, estoy usando ChatGPT, pero también sé que no es mi única fuente de investigación cuando escribo publicaciones de blog, artículos o planeo mi contenido. Estoy usando ChatGPT como punto de partida para habilitar la creatividad y ayudarme a pensar fuera de la caja.

Me sorprendió cómo ChatGPT me ha permitido trabajar más rápido, ahorrar tiempo y probar nuevas ideas. Desde ideas de lluvia de ideas hasta lanzar un programa de televisión local, ChatGPT está transformando cómo dirijo mi negocio como influencer.

Aquí hay 4 formas de usar ChatGPT como creador de contenido:

Use chatgpt para elaborar sus lanzamientos

Puede usar ChatGPT para ayudarlo a escribir un lanzamiento como creador de contenido. Muchos creadores de contenido e influencers pasan una buena parte del tiempo enviando lanzamientos. Algunos presentan posibles socios de marca, mientras que otros influyentes pueden presentar para reuniones de negocios, hablar en eventos o incluso comenzar un nuevo negocio.

Usé ChatGPT para elaborar un correo electrónico para presentar un programa de estación de noticias local para un segmento. Fui muy específico en el aviso que ingresé en ChatGPT.

Aquí está el mensaje exacto que dije:

¡Hola! Necesito ayuda para crear un lanzamiento para una red de noticias local. Mi objetivo es contribuir a los programas de red local como un host recurrente o regular.

Mi nombre es Emma, ​​y ​​soy una creadora local de contenido de Seattle. Comparto el contenido de estilo de vida y estilo de Seattle en mis canales de redes sociales, la edición de Emma. También comparto cosas que hacer/lugares para explorar en Seattle por vecindario en mi canal de YouTube. Investigo en profundidad y muestro cafeterías de Seattle, tiendas de plantas y negocios locales. También documento y comparto los puntos de referencia de Seattle. ¿Qué debo incluir en mi campo? “

Personalicé la respuesta que ChatGPT recomendó, y mi segmento con New Day Northwest de King 5 se emitió el jueves 6 de marzo.

Cómo comenzar a usar chatgpt para lanzar:

Puede comenzar preguntando: “¿Puedes ayudarme a escribir un correo electrónico de presentación para un socio de marca?”

Luego, proporcione información relevante a ChatGPT. Cuanto más contexto le dé a ChatGPT, mejor respuesta recibirá. En su mensaje (su pregunta o solicitud), asegúrese de compartir cuáles son sus objetivos del campo. También recomiendo compartir quién eres y el tipo de contenido que creas.

Use chatgpt para hacer una lluvia de ideas y reutilizar contenido

Ya sea que cree videos de YouTube, episodios de podcasts o publique en Sustack, ChatGPT puede ayudarlo a generar nuevas ideas, desarrollar series para sus plataformas y reutilizar contenido.

Si es un creador de contenido que quiere planificar su contenido con anticipación o si es un influencer atrapado en una rutina creativa, ChatGPT puede ayudarlo a hacer una lluvia de ideas. Así es como puede comenzar a hacer una lluvia de ideas con chatgpt:

  • “Soy un [insert niche, age, demographic, etc.] Creador de contenido basado en [city or state]. Como creador de contenido, creo contenido [insert niches]. Necesito ayuda para hacer una lluvia de ideas sobre ideas [social media platform]. ¿Puedes escribir una lista de ideas de contenido? “

Si es un creador de contenido que desea reutilizar su contenido, puede pedirle a ChatGPT a:

  • Tome una publicación de blog anterior y conviértala en Ideas de Reel o Tiktok de Instagram.
  • Tome contenido de temporada del año pasado y cree nuevas formas de usar esas publicaciones de Instagram para este año.
  • Mire su contenido de mejor desempeño del año pasado y pregunte cómo reutilizar todo ese gran contenido nuevamente para este año.

ChatGPT unidireccional me ha ayudado con mi contenido es que me ha ayudado a desarrollar una serie de firmas. Como creador de contenido de Seattle, constantemente comparto cosas que hacer en Seattle, incluidas las cafeterías y librerías de Seattle.

Esto es lo que incluí en mi aviso para chatgpt:

“¿Puedes ayudarme a elaborar una serie exclusiva sobre Tiktok? Estoy buscando desarrollar una serie centrada en Seattle. Desde que exhibo vecindarios, cafeterías, librerías y cosas de Seattle, espero que pueda empaquetar una serie que la gente quiera ver más y todos los videos. Me encantaría la serie para que también tenga un título atrapado y algo que pueda recrear sobre y otra vez”.

Chatgpt respondió con: “La lista de éxitos de Seattle, su guía de fin de semana de Seattle y Seattle en 60 segundos”.

Me encantó la idea de Seattle en 60 segundos y desde entonces he presentado vecindarios como el centro de Seattle, Capitol Hill y Pioneer Square en Tiktok e Instagram.

Use chatgpt para ayudarlo a planificar eventos en su ciudad

Si eres un creador de contenido o un influencer que quiere conectarse con otros en tu ciudad, puedes usar ChatGPT para ayudarte a organizar el evento.

Estoy buscando organizar una reunión de Seattle Creator, y usé ChatGPT para ayudarme a crear los formularios RSVP. Esto es lo que ingresé en chatgpt:

Quiero planificar un evento de reunión de Coffee Coffee de Seattle Creator. Obtuve más de 50 personas para responderme en hilos, diciendo que estaban interesados. ¿Cómo debo proceder? Cincuenta personas es muchas personas, por lo que me gustaría recopilar las direcciones de correo electrónico de todos usando los formularios de Google y comenzar a construir un directorio. ¿O debo planificar un lugar más grande frente a una cafetería?

Chatgpt respondió con un proceso paso a paso para ayudarme a comenzar a planificar el evento. Seguí y pregunté qué incluir en el formulario de Google, y dio una lista de preguntas detalladas para incluir en el formulario.

Use chatgpt para recibir comentarios

Muchos creadores de contenido e influencers son solopreneurs. Como creador a tiempo completo, trabajo principalmente de forma independiente para escribir artículos, episodios de podcasts de grabación y filmar y editar contenido de video de forma corta. ChatGPT ha sido útil para obtener comentarios sobre todas mis plataformas de redes sociales, YouTube y boletín de correo electrónico.

Aquí hay algunas formas en que puede usar ChatGPT para obtener comentarios y mejorar su contenido:

  • Pida comentarios a ChatGPT sobre sus miniaturas de YouTube. He subido mis miniaturas de YouTube a ChatGPT y me pregunté si debía ajustar títulos, colores, alineación, etc.
  • Pregúntele a Chatgpt qué ganchos funcionarían mejor en los carretes de Tiktok e Instagram.
  • Pregunte a Chatgpt sobre lo que falta en su publicación de blog o esquema de podcast.

ChatGPT puede ser una excelente herramienta de IA para los creadores de contenido que buscan trabajar más rápido, ahorrar tiempo y desarrollar un nuevo contenido para sus plataformas. Lleva algún tiempo jugar con ChatGPT y descubrir cómo puede funcionar para su marca y negocio. Pero ChatGPT y otras herramientas de IA están aquí para quedarse y continuarán ayudando a los creadores de contenido e influyentes a avanzar.

Continue Reading

Trending