Connect with us

Noticias

DeepSeek-R1 de código abierto utiliza aprendizaje por refuerzo puro para igualar OpenAI o1, con un costo un 95 % menor

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


La startup china de IA DeepSeek, conocida por desafiar a los principales proveedores de IA con tecnologías de código abierto, acaba de lanzar otra bomba: un nuevo LLM de razonamiento abierto llamado DeepSeek-R1.

Basado en el modelo de mezcla de expertos DeepSeek V3 recientemente introducido, DeepSeek-R1 iguala el rendimiento de o1, el LLM de razonamiento fronterizo de OpenAI, en tareas de matemáticas, codificación y razonamiento. ¿La mejor parte? Lo hace a un costo mucho más tentador, resultando ser entre un 90 y un 95% más asequible que este último.

El lanzamiento marca un gran paso adelante en el ámbito del código abierto. Muestra que los modelos abiertos están cerrando aún más la brecha con los modelos comerciales cerrados en la carrera hacia la inteligencia artificial general (AGI). Para mostrar la destreza de su trabajo, DeepSeek también utilizó R1 para destilar seis modelos Llama y Qwen, llevando su rendimiento a nuevos niveles. En un caso, la versión destilada de Qwen-1.5B superó a modelos mucho más grandes, GPT-4o y Claude 3.5 Sonnet, en pruebas comparativas matemáticas seleccionadas.

Estos modelos destilados, junto con el R1 principal, son de código abierto y están disponibles en Hugging Face bajo una licencia del MIT.

¿Qué aporta DeepSeek-R1?

La atención se está centrando en la inteligencia artificial general (AGI), un nivel de IA que puede realizar tareas intelectuales como los humanos. Muchos equipos están redoblando esfuerzos para mejorar las capacidades de razonamiento de los modelos. OpenAI dio el primer paso notable en este ámbito con su modelo o1, que utiliza un proceso de razonamiento en cadena de pensamiento para abordar un problema. A través del RL (aprendizaje por refuerzo u optimización impulsada por recompensas), o1 aprende a perfeccionar su cadena de pensamiento y refinar las estrategias que utiliza; en última instancia, aprende a reconocer y corregir sus errores, o a probar nuevos enfoques cuando los actuales no funcionan.

Ahora, continuando con el trabajo en esta dirección, DeepSeek ha lanzado DeepSeek-R1, que utiliza una combinación de RL y ajuste fino supervisado para manejar tareas de razonamiento complejas y igualar el rendimiento de o1.

Cuando se probó, DeepSeek-R1 obtuvo una puntuación del 79,8 % en las pruebas de matemáticas AIME 2024 y del 97,3 % en MATH-500. También logró una calificación de 2029 en Codeforces, mejor que el 96,3% de los programadores humanos. Por el contrario, o1-1217 obtuvo una puntuación del 79,2%, 96,4% y 96,6% respectivamente en estos puntos de referencia.

También demostró un sólido conocimiento general, con una precisión del 90,8% en MMLU, justo detrás del 91,8% de o1.

Rendimiento de DeepSeek-R1 frente a OpenAI o1 y o1-mini

El canal de formación

El rendimiento de razonamiento de DeepSeek-R1 marca una gran victoria para la startup china en el espacio de la IA dominado por Estados Unidos, especialmente porque todo el trabajo es de código abierto, incluida la forma en que la empresa entrenó todo.

Sin embargo, el trabajo no es tan sencillo como parece.

Según el artículo que describe la investigación, DeepSeek-R1 se desarrolló como una versión mejorada de DeepSeek-R1-Zero, un modelo innovador entrenado únicamente a partir del aprendizaje por refuerzo.

La compañía utilizó por primera vez DeepSeek-V3-base como modelo base, desarrollando sus capacidades de razonamiento sin emplear datos supervisados, enfocándose esencialmente solo en su autoevolución a través de un proceso de prueba y error puro basado en RL. Desarrollada intrínsecamente a partir del trabajo, esta capacidad garantiza que el modelo pueda resolver tareas de razonamiento cada vez más complejas aprovechando el cálculo de tiempo de prueba extendido para explorar y refinar sus procesos de pensamiento con mayor profundidad.

“Durante el entrenamiento, DeepSeek-R1-Zero emergió naturalmente con numerosos comportamientos de razonamiento poderosos e interesantes”, señalan los investigadores en el artículo. “Después de miles de pasos de RL, DeepSeek-R1-Zero exhibe un rendimiento excelente en pruebas comparativas de razonamiento. Por ejemplo, la puntuación pass@1 en AIME 2024 aumenta del 15,6% al 71,0%, y con la votación mayoritaria, la puntuación mejora aún más hasta el 86,7%, igualando el rendimiento de OpenAI-o1-0912”.

Sin embargo, a pesar de mostrar un rendimiento mejorado, incluidos comportamientos como la reflexión y la exploración de alternativas, el modelo inicial mostró algunos problemas, incluida una legibilidad deficiente y una mezcla de idiomas. Para solucionar este problema, la empresa se basó en el trabajo realizado para R1-Zero, utilizando un enfoque de varias etapas que combina aprendizaje supervisado y aprendizaje reforzado, y así creó el modelo R1 mejorado.

“Específicamente, comenzamos recopilando miles de datos de arranque en frío para ajustar el modelo DeepSeek-V3-Base”, explicaron los investigadores. “Después de esto, realizamos RL orientada al razonamiento como DeepSeek-R1-Zero. Al acercarse a la convergencia en el proceso de RL, creamos nuevos datos SFT mediante muestreo de rechazo en el punto de control de RL, combinados con datos supervisados ​​de DeepSeek-V3 en dominios como escritura, control de calidad factual y autoconocimiento, y luego volvemos a entrenar el DeepSeek-V3. -Modelo básico. Después de realizar ajustes con los nuevos datos, el punto de control se somete a un proceso de RL adicional, teniendo en cuenta las indicaciones de todos los escenarios. Después de estos pasos, obtuvimos un punto de control llamado DeepSeek-R1, que logra un rendimiento a la par con OpenAI-o1-1217”.

Mucho más asequible que o1

Además de un rendimiento mejorado que casi iguala al o1 de OpenAI en todos los puntos de referencia, el nuevo DeepSeek-R1 también es muy asequible. Específicamente, mientras que OpenAI o1 cuesta $15 por millón de tokens de entrada y $60 por millón de tokens de salida, DeepSeek Reasoner, que se basa en el modelo R1, cuesta $0,55 por millón de entradas y $2,19 por millón de tokens de salida.

El modelo se puede probar como “DeepThink” en la plataforma de chat DeepSeek, que es similar a ChatGPT. Los usuarios interesados ​​pueden acceder a los pesos de los modelos y al repositorio de códigos a través de Hugging Face, bajo una licencia del MIT, o pueden utilizar la API para una integración directa.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

ChatGPT resulta útil para la exploración de datos

Published

on

Esa ignorancia (y, seamos honestos, la falta de interés en aprender habilidades en ese campo) me hizo recurrir a ChatGPT el otro día en busca de respuestas a algunas preguntas que me habrían llevado demasiado tiempo resolver de otra manera. Recientemente me suscribí a ChatGPT Plus, que proporciona un acceso más amplio a GPT-4o y un mejor manejo de la carga de archivos, lo que hace posible este tipo de análisis de datos. Otros asistentes de IA como Claude ofrecen capacidades similares.

Comprender las fuentes de referencia

Aquí está el problema: el Finger Lakes Runners Club organiza 25 carreras por año, pero el número de carreras y las pequeñas inconsistencias de los datos hacen que el análisis a gran escala de los datos de registro sea desalentador. Por ejemplo, para algunas de nuestras carreras, preguntamos dónde se enteraron los inscritos sobre la carrera, ofreciéndoles un conjunto de opciones. Nuestra intención es saber cuáles de nuestros esfuerzos promocionales son los más exitosos.

Puedo imaginar fácilmente cómo crear una hoja de cálculo con hojas separadas para cada carrera y usar búsquedas para contar el número de cada respuesta para cada carrera. Sin embargo, construir una hoja de cálculo de este tipo llevaría horas, en particular solucionar problemas de las extrañas fórmulas de búsqueda. No ha sucedido. Mi reciente descubrimiento de que ChatGPT puede analizar archivos CSV y Excel apuntó a otra solución.

Primero, subí mis archivos arrastrándolos a un nuevo chat. (Solo podía tomar diez a la vez, por lo que tuve que cargar en lotes). Le pedí a ChatGTP que creara una tabla contando la cantidad de veces que cada elemento en la columna Fuente aparece en todos los registros de carreras. ¡Mágicamente lo hizo! Pero una vez que pude verla, la mesa no era exactamente lo que tenía en mente. Incluía una columna de índice y resumía todas las carreras. Cambié ligeramente de tema y le pedí a ChatGPT que eliminara la columna de índice y agregara datos por carrera a las filas de la tabla. Su primer intento confundió las filas y columnas, pero pedirle que transponga los datos solucionó el problema. Unos cuantos comandos más me dieron una fila y columna Total, una lista de carreras ordenada alfabéticamente y nombres de columnas más cortos.

Confirmé algunos de los números y cálculos cotejándolos con mis hojas de cálculo originales y haciendo verificaciones aleatorias con fórmulas simples. El objetivo general también era lo suficientemente insignificante como para que algunos errores menores no me hubieran perturbado en absoluto. Desafortunadamente, aparte de algunas generalidades sobre qué enfoques fueron los más comunes y algunos valores atípicos (el gran “De un amigo” sugiere que Turkey Trot funciona en gran medida de boca en boca), los datos fueron difíciles de entender.

Luego, le pedí a ChatGPT que cambiara de números brutos a porcentajes, lo que me permitió comparar la efectividad relativa de cada canal promocional más fácilmente. Sin embargo, examinar de cerca cada número en la tabla aún requirió un esfuerzo significativo, por lo que le pedí a ChatGPT que creara una visualización. Sugirió un gráfico de barras apiladas, que produjo el siguiente.

Gráfico de barras apiladas generado por ChatGPT

Francamente, este cuadro es exactamente lo que necesito transmitir al equipo de comunicación del club para que puedan evaluar lo que están haciendo. (Algunas de las barras no están al 100% debido a un paso de redondeo anterior, pero nuevamente, lo que me interesa es el bosque aquí, no algunas ramitas).

Evaluación de inscripciones tardías en carreras

Animado por la relativa facilidad de extraer los datos de la fuente de referencias, abordé un problema más complejo. En los últimos años, hemos visto un aumento significativo en las inscripciones tardías para carreras, y muchas personas se inscribieron en el último día o dos antes de una carrera. No tener una idea de cuán grande será una carrera hasta los últimos días causa incertidumbre y estrés a los directores de carrera, sobre todo al estimar cuánta comida comprar para los refrigerios después de la carrera.

Hemos jugado con varias técnicas para fomentar los registros más tempranos, incluidas solicitudes para registrarse antes, aumentos de precios y cortes anticipados, pero ninguna ha logrado cambiar la situación. La gente se disculpa por ser una molestia, pero no se detiene. Nuestras carreras no son lo suficientemente caras como para que los aumentos de precios marquen una gran diferencia. Los cortes tempranos generan correos electrónicos angustiados de aquellos que se perdieron y de personas que se presentan a la carrera pidiendo registrarse el día de la carrera, lo que en última instancia causa más estrés y trabajo. Dado que no estamos dispuestos a emplear políticas draconianas inapropiadas para un club comunitario dirigido por voluntarios y centrado en la inclusión, las inscripciones tardías se han convertido en un hecho de nuestro mundo moderno.

Sin embargo, saber cuántas personas probablemente se registrarán en la última semana nos ayudaría a estimar mejor las necesidades alimentarias y evitaría preocuparnos de que no se hayan realizado suficientes relaciones públicas. Como ya había subido todas esas hojas de cálculo de registro de carreras a ChatGPT, decidí ver si podía ayudarnos a visualizar el porcentaje de corredores que se registran tarde.

Como no todas las carreras tenían inscripciones el día de la carrera, y esa fecha no se podía calcular de otra manera, tuve que enviarle a ChatGPT una lista de las fechas reales de la carrera. Después de eso, lo hice crear gráficos de barras que mostraban cuántas personas se inscribieron el día de una carrera, un día antes, dos días antes, etc. Como puede ver, algunas carreras tienen mucho más peso en las inscripciones tardías (Turkey Trot, izquierda) que otras (Skunk Cabbage, derecha).

Gráficos de barras generados por ChatGPT

Sin embargo, cuando le pedí a ChatGPT que combinara todas las carreras, convirtiera los números brutos en porcentajes del total y condensara los días en semanas, el gráfico resultante fue claro: más del 50 % de las personas se inscribieron en la última semana.

Gráfico de barras generado por ChatGPT

Normalmente me habría detenido aquí, pero tenía curiosidad por saber si ChatGPT podría sugerir otras formas útiles de examinar la información. Ofrecía varios, incluido un gráfico de líneas acumuladas, un mapa de calor, un gráfico de áreas apiladas y un gráfico de barras apiladas porcentuales.

Otra visualización sugerida de ChatGPT

Sólo el gráfico de líneas acumuladas tenía sentido para mí, e incluso allí tuve problemas para internalizar lo que significaba la pendiente de la línea. Entonces, hice que ChatGPT cambiara el orden cronológico para que el día de la carrera estuviera en el lado derecho del gráfico y la línea aumentara con el tiempo. También le pedí que volviera a cambiar de números brutos a porcentajes, lo que produjo gráficos como este para Turkey Trot y Skunk Cabbage.

Gráficos de líneas acumulativos generados por ChatGPT

¡Ahora estamos hablando! Para Turkey Trot, que recibe muchas inscripciones tardías, puedo ver fácilmente que el 50% de los inscritos se inscribirán en los últimos tres días. Sin embargo, la marca del 50% para Skunk Cabbage llega unos dos meses antes. Planeo compartir estos gráficos con los distintos directores de carrera para que puedan entender lo que probablemente sucederá con las inscripciones este año.

Para ser claros, no habría pensado en hacer un gráfico de líneas acumulativas por mi cuenta, e incluso si lo hubiera hecho, no estoy seguro de haber podido construir estos gráficos. Ciertamente no sin horas de trabajo, en lugar de los 15 o 20 minutos que dediqué a dar instrucciones a ChatGPT.

La extrema rareza de un asistente de IA

Mi recuento de cómo llegué a estos gráficos pasa por alto todos los idas y venidas que fueron necesarios. En la mayoría de los casos, obtenía algo sorprendentemente impresionante después de una o dos indicaciones. En cuestión de minutos, tendría tablas o gráficos que parecían razonables.

Sin embargo, incluso si no me importaba la precisión extrema, los números debían ser aproximadamente correctos. Varias veces, cuando revisé un número, estaba completamente equivocado. Eso también sucede en las hojas de cálculo que construyo, pero en lugar de descubrir dónde me había equivocado en una fórmula, simplemente le dije a ChatGPT que corrigiera el error. Tuve que repetirme en algunas ocasiones hasta que los números se alinearon con lo que había subido.

La mayor parte de mi tiempo lo dedicaba a pequeñas cosas. Mientras trabajaba en la tabla de fuentes de referencia, quería cambiar la forma en que se ordenaba. Esto se logró fácilmente, pero ChatGPT también ordenó la fila y columna Total en lugar de dejarlas en la parte inferior y derecha. No tenía idea de que eran diferentes de los datos y debían permanecer en esas posiciones, aunque estuvo feliz de volver a colocarlos allí cuando me quejé. También usaba notación decimal en algunos lugares, aunque todo era un número entero, así que tuve que decirle que se quedara con números enteros.

Además, al construir los gráficos, tuve que hacer que ChatGPT usara números enteros en los ejes X e Y porque los datos no contenían medios registros ni medios días. De hecho, tropezó con el hecho de que las fechas de registro sí incluían horas (estaba comenzando a descender por la madriguera del conejo de la zona horaria), pero solucioné ese problema diciéndole que ignorara las horas. Eso por sí solo era mucho más fácil que luchar con los formatos de fecha en una hoja de cálculo, que encuentro casi completamente inescrutable.

Aún más extraño fue tener que cambiar el formato con indicaciones. Cambiar los títulos de las columnas, los títulos de los gráficos e incluso la ubicación de la leyenda requería que explicara lo que quería en lugar de hacerlo yo mismo.

Rara vez trabajo con personas en este tipo de cosas, por lo que la mayor parte de mi trabajo iterativo ocurre en mi cabeza sin ser exteriorizado. Sin embargo, pensándolo bien, la experiencia no fue tan diferente de cuando Josh Centers desarrolló por primera vez los gráficos financieros que utilizamos cuando cubrimos los informes trimestrales de Apple. Me mostraba un gráfico y yo le pedía que cambiara el color, modificara un título o ajustara el espaciado de la leyenda. Algunas veces, cuando le pregunté por qué los gráficos no se veían bien, descubrió que una fórmula había salido mal y estaba calculando mal los números. ChatGPT cometió errores mucho más extraños que Josh, pero también respondió mucho más rápido a solicitudes como “Cambie los gráficos para que la línea aumente con el tiempo en lugar de disminuir”.

Me encontré con un par de inconvenientes inesperados. Primero, como un gato en un árbol, ChatGPT tiene problemas para darse la vuelta. Si lo envié por un camino que luego decidí que era un callejón sin salida, decirle a ChatGPT que regresara e intentara un enfoque diferente a menudo fallaba.

Creo que el problema radica en los límites de memoria de ChatGPT. Procesa instrucciones en el hilo actual pero no retiene el historial completo de operaciones de forma indefinida. Por ejemplo, una vez que le dije a ChatGPT que cambiara de números brutos a porcentajes, los números brutos ya no formaban parte de su contexto, lo que dificultaba la reversión. Sin un mecanismo para “regresar”, las etapas anteriores de datos esencialmente se borraron, lo que me obligó a comenzar de nuevo en un nuevo chat.

La solución fue empezar de nuevo en un nuevo chat, pero eso requirió repetir todas las indicaciones deseadas hasta el punto en que quise probar un enfoque diferente. Podría haber sido posible copiar todas esas indicaciones del chat anterior y combinarlas en una sola en el chat nuevo, pero no lo intenté.

El segundo inconveniente era que ChatGPT se “cansaba” después de un tiempo. Pido disculpas por la antropomorfización, pero las cosas que había hecho antes sin problemas eventualmente se volvieron problemáticas. Comenzó a olvidarse de algunas de las carreras que había subido y, cuando me quejé, inventó los datos por completo. Finalmente, tiró la toalla y dijo:

Parece que el conjunto de datos de trabajo para registros (filtered_corrected_days_before_all_df) ya no está disponible. Para volver a calcular con precisión el número total de registros, tendré que volver a cargar y procesar los archivos de registro originales. ¿Podrías volver a cargar los archivos necesarios o confirmar cómo deseas continuar?

Sospecho que este es el mismo problema que intentar volver a un resultado anterior y comenzar de nuevo. Con un contexto limitado, muchos de mis datos habían sido modificados, modificados y transformados para continuar la conversación de alguna manera útil. En otras palabras, ChatGPT era como el niño pequeño de la caricatura de The Far Side que dice: “Sra. Johnson, ¿puedo disculparme? Mi cerebro está lleno”.

A pesar de algunos inconvenientes, generar tablas y gráficos simplemente cargando datos y solicitando ChatGPT parecía un vistazo al futuro. Una vez que adapté mi enfoque para interactuar con ChatGPT (formulando instrucciones claramente y anticipando revisiones iterativas como lo haría cuando trabajaba con una persona), el proceso se volvió sorprendentemente eficiente. Para cualquiera que deba analizar grandes conjuntos de datos, ChatGPT ofrece una alternativa convincente a las herramientas tradicionales. Le animo a que experimente con él la próxima vez que desee explorar o visualizar datos complejos rápidamente.

Continue Reading

Noticias

Me encanta Google Gemini, pero tomaré Apple Intelligence cualquier día de la semana

Published

on

Si está buscando la mejor experiencia de IA en un teléfono, es probable que le vengan a la mente dos fabricantes de IA diferentes. Para el iPhone 16, Apple Intelligence es la respuesta, mientras que para la serie Pixel 9 (y los mejores teléfonos Android) es Gemini de Google. Por supuesto, también puedes descargar Gemini como una aplicación independiente en el iPhone, pero Apple Intelligence es la opción de IA predeterminada.

Ambas empresas ofrecen una gama de características casi idénticas, al menos en lo que prometen ofrecer, pero también existen diferencias matizadas. Google Gemini se centra principalmente en el uso de IA para ayudarle a crear, editar y generar contenido. Por el contrario, Apple Intelligence se centra más en casos de uso personal y en la integración entre una variedad de aplicaciones.

He estado usando Gemini y Apple Intelligence durante meses y ambos servicios de IA tienen sus pros y sus contras. Después de probar ambos durante meses, esto es lo que encontré.

Activando Apple Intelligence y Gemini

Gemini Advanced en Google Pixel 9 Pro Fold. Andy Boxall / Tendencias digitales

Activar cualquiera de las plataformas de IA es bastante intuitivo, especialmente si has usado un teléfono Android o un iPhone antes. Gemini reemplaza al Asistente de Google como el asistente predeterminado en su teléfono, aunque puede desactivarlo, lo que quizás desee hacer, especialmente si confía en el Asistente de Google para su hogar inteligente. Gemini se puede activar más comúnmente deslizando el dedo desde la esquina inferior de la pantalla, aunque también está disponible a través de la palabra clave “Hey Google”.

De manera similar, Apple Intelligence está integrada en el Siri renovado, que se puede activar usando la palabra clave “Hey Siri” o presionando dos veces el botón de encendido. Cuando activas el nuevo Siri, obtendrás un efecto de iluminación estilo arcoíris alrededor del borde de toda la pantalla, en lugar de que Siri se apodere de toda la pantalla como lo hacía en la generación anterior.

Inteligencia de Apple en el Apple iPhone 16 Plus.
Andy Boxall / Tendencias digitales

Ambos son fáciles de activar y usar, así que este es un empate. Creo que Gemini es más sencillo de usar y activar, especialmente porque hay varias formas de activarlo, pero a la inversa, el método de activación puede cambiar entre diferentes teléfonos Android.

Gemini vs Apple Intelligence: en qué se parecen

Usando Gemini AI en Google Pixel 9.
Usando Gemini AI en Google Pixel 9. Andy Boxall / Tendencias digitales

Ambas plataformas se centran en el uso de la IA para tres propósitos específicos: funciones generativas, como crear y editar imágenes o texto, así como funciones de productividad y un asistente de voz. El primero es el enfoque clave para la mayoría de los creadores de IA, pero a menudo he descubierto que las funciones de IA generativa pueden ser una especie de truco. Sí, crearán memes geniales, pero probablemente no cambiarán tu vida.

Ambas plataformas te permiten editar imágenes que ya has capturado para eliminar objetos no deseados. Google ha tenido esto integrado en Magic Editor en Google Photos durante varios años, mientras que iOS 18 trae esta función de forma nativa al iPhone por primera vez en la aplicación Apple Photos rediseñada.

Toma esta imagen que me tomó un amigo la mañana después de una intensa noche de fiesta. Pedí a ambos teléfonos que eliminaran el menú de la mesa y los resultados son bastante interesantes.

Primero, es inmediatamente obvio que Apple Intelligence no es tan bueno como Gemini, como puede ver que la veta de la madera en la mesa está inclinada en la misma dirección que el menú. Aparte de eso, Apple Intelligence hace un gran trabajo al completar los granos y garantizar que haya continuidad en el antes y el después de la misma foto.

¿Qué pasa con Google Géminis? Aquí es donde la historia más larga de Google entra en vigor: es mucho mejor. Primero, genera cuatro imágenes diferentes para que elijas. En segundo lugar, tiene más precisión al permitirle refinar su selección antes de realizar una edición. Sin embargo, al mismo tiempo, se necesitan más toques para acceder al Magic Editor y, a menos que haya usado Google Photos en el pasado, una persona promedio probablemente encontrará Apple Photos más intuitivo.

Diferencias clave entre Gemini y Apple Intelligence

Un iPhone que muestra una representación de Apple Intelligence de Steve Jobs en la aplicación Image Playground.
Un iPhone que muestra una representación de Apple Intelligence de Steve Jobs en la aplicación Image Playground. Jesse Hollington / Tendencias digitales

El enfoque de Google con Gemini se centra principalmente en las funciones generativas, además de convertirlo en un reemplazo del Asistente de Google. Logra lo primero muy bien, aunque aún necesita algo de trabajo como un verdadero reemplazo del Asistente de Google, especialmente si lo necesita para controles domésticos inteligentes.

Gemini viene con una variedad de funciones que disfruto usar, especialmente Circle to Search, que debutó el año pasado en la serie Galaxy S24 y facilita la búsqueda relacionada con algo en su pantalla. ¿Quieres saber dónde comprar los zapatos que acabas de ver en Instagram? Circle to search puede buscarlo en segundos.

Círculo para buscar con la opción Guardar en capturas de pantalla en Google Pixel 9 Pro.
Círculo para buscar con la opción Guardar en capturas de pantalla en Google Pixel 9 Pro. Christine Romero-Chan / Tendencias digitales

Mientras tanto, Apple Intelligence adopta un enfoque diferente. Presenta muchas de las mismas funciones generativas, excepto un verdadero reemplazo de Circle to Search, pero también está diseñado para ser su asistente. Cualquiera que sea la aplicación que estés usando, Apple Intelligence puede editar, reescribir o resumir texto por ti, lo que lo hace particularmente conmovedor cuando usas una variedad de aplicaciones.

También hay otra diferencia clave entre ellos: los modelos que utilizan.

Debajo: Gemini Advanced vs ChatGPT

Un iPhone que solicita al usuario la aprobación de ChatGPT.
Un iPhone que solicita al usuario la aprobación de ChatGPT. Manzana

Si usó Siri antes del lanzamiento de Apple Intelligence, sabrá que no era tan bueno como el Asistente de Google; ni siquiera estuvo cerca. Con eso en mente, casi siempre parecía inevitable que Apple recurriera a otro proveedor para los modelos subyacentes que impulsan Apple Intelligence.

Google ya le paga a Apple para que sea el motor de búsqueda predeterminado en el iPhone, algo así como casi 20 mil millones de dólares por año, por lo que es algo sorprendente que Apple haya recurrido a ChatGPT para proporcionar los modelos subyacentes para Apple Intelligence.

Usando Gemini AI en Google Pixel 9.
Usando Gemini AI en Google Pixel 9. Andy Boxall / Tendencias digitales

Esta integración va mucho más allá y, cuando el nuevo Siri no puede ayudar, Apple ha integrado ChatGPT como copia de seguridad predeterminada. Esto significa que hay algunas funciones duplicadas (puede generar imágenes usando Image Playground o ChatGPT y lo mismo se aplica a algunas de las herramientas de escritura), pero también significa que tiene una amplia gama de información y datos con los que trabajar. Si tiene una cuenta ChatGPT gratuita o de pago, puede acceder a aún más funciones directamente desde Apple Intelligence.

Comparativamente, Google opta por un enfoque autónomo. El modelo subyacente detrás de Gemini es Gemini Advanced, siendo Gemini 1.5 Pro en particular el modelo actual no beta. Si accedes a Gemini a través de la web, también podrás seleccionar el modelo Gemini 2.0 de próxima generación.

Usando Visual Intelligence en un iPhone 16 Pro que muestra la respuesta ChatGPT.
La inteligencia visual en los iPhone se basa en la cámara para darle sentido al mundo que te rodea. Christine Romero-Chan / Tendencias digitales

Una de las diferencias clave entre estos dos modelos es que Gemini 1.5 tiene una ventana de contexto más grande, mientras que ChatGPT tiende a generar mejor texto similar a un humano. Ambas aplicaciones te permiten crear chatbots personalizados, pero ChatGPT también ofrece funciones más avanzadas y los usuarios Plus o Enterprise pueden crear chatbots ilimitados.

Una cosa un tanto irritante de Apple Intelligence es que no utiliza el último modelo GPT-4, que es mucho más avanzado y capaz. No está claro si Apple implementará esto en una fecha posterior o si se integrará en la próxima versión de Apple Intelligence, pero esto es algo que me gustaría que Apple integrara en Apple Intelligence. GPT-4 tiene un conjunto de datos mucho más reciente con el que trabajar, lo que plantea un desafío para la base de conocimientos con la que trabaja Apple Intelligence.

Por ejemplo, le pregunté a Apple Intelligence y Gemini quién ganó las elecciones de EE. UU. y generó una respuesta relacionada con las elecciones de 2020. Después de aclarar que me refería a las elecciones de 2024, me dio resultados de Búsqueda de Google. En este caso, en realidad era mejor que Géminis. que no discutirá las elecciones pero este es un caso extremo y Gemini suele ser más preciso a la hora de recordar información que Apple Intelligence.

Una cosa más: dónde Apple Intelligence lo hace tan bien

Resúmenes de inteligencia de Apple en un iPhone 16 Pro
Resúmenes de notificaciones en Apple Intelligence en la serie iPhone 16 Nirave Gondhia / Tendencias Digitales

Para todo lo que Gemini es excelente, hay una característica que Apple Intelligence hace bien. Al decidir cómo crear una IA útil, Apple se centró en su capacidad para afectar y mejorar su vida personal, y Apple Intelligence es mucho mejor que Gemini en esto.

Ya escribí que los resúmenes de notificaciones son mi uso favorito de la IA en este momento, pero Apple Intelligence va más allá de eso. Poder acceder a las herramientas de escritura (para redactar, refinar o editar texto) en cualquier aplicación es mucho mejor que Gemini, que actúa como una superposición para esa aplicación. De manera similar, pronto podrás recuperar información de cualquier aplicación, lo que debería convertir al nuevo Siri en un asistente personal mucho mejor.

¿Qué prefiero: Gemini o Apple Intelligence?

Primer plano de la cámara del iPhone 16 Pro y Pixel 9 Pro.
iPhone 16 Pro (izquierda) y Pixel 9 Pro Nirave Gondhia / Tendencias Digitales

He estado usando ambas plataformas durante meses y responder esta pregunta es más difícil de lo que esperaba. Por un lado, Google Gemini es una solución de IA generativa mucho mejor y tiene acceso a una base de conocimientos mucho más amplia que Apple Intelligence. Por otro lado, Apple Intelligence es un asistente personal mucho mejor y tiene una mejor integración con los dispositivos Apple.

Luego está el potencial a largo plazo de cada una de estas plataformas. Google Gemini es el proveedor de IA predeterminado que respalda el conjunto de IA en la mayoría de los dispositivos Android, mientras que Apple Intelligence se centra únicamente en los dispositivos Apple, pero se beneficia de las mejoras realizadas por ChatGPT (al menos una vez que ejecuta los últimos modelos).

Considerando todo esto, descubrí que si bien Gemini es mucho más avanzado que Apple Intelligence, es el enfoque de este último en funciones personales lo que garantiza que lo use con más frecuencia. Cuando quiero buscar algo o editar una foto, recurro a Gemini, pero para el uso diario, encuentro que Apple Intelligence (y en particular los resúmenes de notificaciones) es mucho más beneficioso para la vida diaria. Dicho esto, Gemini es sin duda la mejor plataforma de IA, al menos por ahora.






Continue Reading

Noticias

Los modelos de inteligencia artificial de razonamiento simulado de OpenAI coincidieron con los niveles humanos en el punto de referencia ARC-AGI: esto es lo que eso significa para usted

Published

on

La Inteligencia Artificial ha alcanzado un hito inesperado y transformador. OpenAI anunció que sus modelos o3 sintonizados han superado el punto de referencia ARC-AGI, una prueba crítica de la capacidad de razonamiento humano para los sistemas de IA. ¿Qué significa este logro y cómo afectará nuestra vida diaria?

Si bien este logro no pondrá AGI en nuestros bolsillos en el corto plazo, es un punto de inflexión clave en el desarrollo de la IA. Sin embargo, la enorme potencia informática necesaria para estos modelos está lejos de ser práctica para el mercado de consumo. Incluso los teléfonos más potentes en 2025 no estarán ni cerca de ejecutarlo. Pero este avance significa que la AGI es posible y es posible que veamos los beneficios antes de lo que pensábamos.

Relacionado

¿Qué es OpenAI?

OpenAI está iniciando la revolución de la IA con proyectos audaces y alianzas visionarias

Comprender el punto de referencia ARC-AGI

Por qué tardó 5 años en romperse

El punto de referencia ARC-AGI, abreviatura de Abstraction and Reasoning Corpus for Artificial General Intelligence, mide la capacidad de un modelo de IA para razonar y resolver nuevos problemas que requieren adaptabilidad. Creado por François Chollet en 2019 como parte de un concurso público de 1 millón de dólares, el punto de referencia se ha mantenido inalterado hasta ahora. Las tareas del punto de referencia obligan al modelo a utilizar el razonamiento, la lógica y la deducción en lugar de depender de los patrones aprendidos de un conjunto de datos existente.

El punto de referencia ARC-AGI no fue diseñado para resolverse ampliando las tecnologías de inteligencia artificial existentes, como los LLM. Estos están entrenados para ser buenos en tareas específicas, lo que llamamos IA estrecha o IA débil, pero carecen de la flexibilidad para generalizar más allá de sus datos de entrenamiento. No se trataba sólo de aportar más datos y potencia informática al problema. Romper el punto de referencia requirió que OpenAI desarrollara una arquitectura fundamentalmente nueva que pudiera emular el razonamiento humano.

Romper el punto de referencia requirió que OpenAI desarrollara una arquitectura fundamentalmente nueva que pudiera emular el razonamiento humano.

Modelos como ChatGPT y Gemini son impresionantes pero limitados. Los sistemas multimodales pueden procesar varios tipos de datos (vídeo, imágenes, voz y texto), pero sólo dentro de sus parámetros de entrenamiento. No importa cuán avanzados lleguen a ser, no pueden lograr AGI porque carecen de la capacidad de razonar, adaptarse y generalizar como los humanos.

Pero serán transformadores.

Lograr la AGI podría tener implicaciones de largo alcance que transformen la cultura y la sociedad en un grado sin precedentes, para bien o para mal. En manos de megacorporaciones y multimillonarios cada vez más poderosos, esta tecnología podría quedar encerrada detrás de estrictos muros de pago, lo que aumentaría aún más la disparidad económica. Sin embargo, dado que la mayoría de los modelos fundamentales son de código abierto y muchos pueden ejecutarse localmente en nuestras máquinas, esa disparidad podría comenzar a reducirse, siempre que sigan siendo accesibles.

Gráfico circular de modelos básicos de IA por tipo de acceso que muestra que la mayoría son de código abierto

Fuente: Wikipedia Commons

Así es como AGI podría transformar la vida cotidiana:

  • Asistentes de IA que realmente funcionan: AGI podría significar el fin de nuestra frustración con los asistentes de IA. No necesitaremos encontrar la forma “correcta” de decir las cosas porque la IA puede deducir lo que queremos como lo haría otra persona.
  • Todo el mundo es programador: AGI podría permitir a cualquiera programar computadoras proporcionando un pequeño conjunto de ejemplos de entrada/salida.
  • El tutor perfecto: AGI podría identificar la mejor manera de aprender, enseñarle cualquier materia y adaptar las lecciones a sus necesidades.
  • Mejor atención médica: AGI podría actuar como un médico virtual, brindando diagnósticos tempranos, creando planes de bienestar personalizados y ayudando a pacientes y médicos a hablar entre sí de una manera que puedan entender fácilmente.
  • democratización del conocimiento: A diferencia de Internet, que actúa como un depósito centralizado de conocimiento humano, AGI podría proporcionar conocimientos y soluciones a nivel de expertos a través de una conversación natural, reduciendo las desigualdades en el acceso a la educación y la experiencia.

El acceso a una mejor educación sin incurrir en deudas y reducir la dependencia de un sistema de salud predatorio devolvería cantidades significativas de dinero a la gente común y corriente. Con asesoramiento de nivel experto y la capacidad de programar cualquier cosa dentro de nuestra capacidad informática, los individuos podrían desafiar a las corporaciones sin control y hacer que sus creaciones sean más accesibles a nivel local. Al menos, podríamos pedir a nuestros dispositivos que realicen tareas y verlos funcionar de manera consistente según lo previsto.

Podría ser simplemente más exageración

Que ya está sobreinflado.

Un gráfico que muestra puntos de referencia de rendimiento en los que la IA superó a los humanos

Fuente: Wikipedia Commons

La IA ha sido promocionada sin límites en los últimos años. Aun así, para la mayoría de las personas es difícil distinguir qué es lo que realmente mejora la vida y qué son las promesas vacías. La opinión pública sobre la IA sigue dividida. Una encuesta reciente de YouGov muestra que el 42% de los estadounidenses cree que la IA tendrá un impacto negativo en la sociedad, y el 46% de los adultos menores de 45 años dice que la IA les ha facilitado la vida.

La importancia del índice de referencia ARC-AGI también es relativa. Si bien es un paso fundamental hacia la AGI, no es suficiente por sí solo. El punto de referencia evalúa la resolución de problemas dentro de un tipo específico de tarea abstracta en lugar de en aplicaciones del mundo real. Esto no significa que estos modelos estén listos para su uso práctico. Que un bebé diga su primera palabra o dé su primer paso es un hito, pero no le da fluidez, y este logro es sólo una señal temprana de su potencial.

Que un bebé diga su primera palabra o dé su primer paso es un hito, pero no le da fluidez, y este logro es sólo una señal temprana de su potencial.

Si bien este avance avanza en la arquitectura de modelos, no es la primera vez que la IA ha superado el desempeño humano en tareas intelectuales. Las limitaciones de hardware siguen siendo un obstáculo para la adopción por parte de los consumidores. El modelo o3 de alta eficiencia de OpenAI cuesta 20 dólares por tarea, lo que resulta caro para el uso diario. La configuración de alta computación, que requiere 172 veces más energía, cuesta miles de dólares por tarea.

Mirando hacia el panorama general

Ya estamos entrando en una nueva era de la IA

La infografía muestra los resultados de una encuesta de expertos en inteligencia artificial sobre estimaciones del cronograma de la inteligencia artificial

Fuente: Wikipedia Commons

Si bien el escepticismo es comprensible, descartar este avance pasa por alto las implicaciones más amplias. Esta no es solo otra iteración de Narrow AI. Es un cambio hacia la IA general. Superar el punto de referencia ARC-AGI demuestra que el AGI es posible y está a nuestro alcance antes de lo esperado. Incluso si los sistemas actuales no son prácticos, sientan las bases para modelos más eficientes y asequibles.

Este hito no se trata de ganancias a corto plazo. Se trata de redefinir lo que es posible. Así como los primeros teléfonos inteligentes eran limitados en comparación con los dispositivos actuales, las primeras etapas de AGI son precursoras de un cambio transformador en nuestras vidas. El logro de OpenAI es más que un simple hito técnico. Es un vistazo al futuro de la IA.

Relacionado

¿Qué es el aprendizaje automático?

El proceso mediante el cual las computadoras aprenden a predecir las tendencias bursátiles

Si bien las aplicaciones prácticas pueden tardar algunos años en llegar, este avance marca un punto de inflexión en el funcionamiento de los sistemas de IA. Para los usuarios cotidianos, promete una tecnología más inteligente e intuitiva que se siente como hablar con otra persona sin aprender comandos específicos. Si bien las posibilidades son amplias, avances como este y el Proyecto Astra de Google podrían traer asistentes funcionales de IA a nuestros bolsillos.

El rápido ritmo del desarrollo de la IA pone de relieve la necesidad de regulación y supervisión ética. AGI cambiará nuestras vidas, pero sin barandillas, podría ser para peor. He experimentado mejoras en mi vida, así que soy optimista y espero que podamos garantizar que el cambio beneficie a todos.

Continue Reading

Trending