MidJourney Aviso: Mural mexicano de Prometeo que alcanza hacia arriba hacia la llama digital por encima de los edificios corporativos, contornos audaces, composición poderosa, inspirada en el río —Ar 4: 3
Bienvenido a Confluence. Ha estado muy ocupado en el mundo de la IA generativa, con nuevos modelos sustantivos de Operai, Anthrope y XAI en las últimas semanas. Tenemos mucho de qué hablar, más de lo que podemos llegar a todos a la vez. Dicho esto, esto es lo que tiene nuestra atención esta semana en la intersección de la IA generativa y la comunicación corporativa:
Chatgpt Deep Investigación ahora disponible para usuarios más
Amazon anuncia Alexa+, impulsado por Claude
Cómo un INSIDER AI usa LLMS
Nuestra pila de modelos actual
La frontera continúa siendo más barata y más accesible.
Hace menos de un mes, escribimos sobre la investigación profunda de Chatgpt. Nos sorprendió. Sentimos que habíamos cruzado otro umbral en las capacidades generativas de IA, ya que ahora teníamos “un agente que [we] Puede asignar a la investigación e informar sobre un tema, dejar por un tiempo y volver a tener un trabajo que sea igual o superior a la mayoría de los estándares humanos “. La única investigación para una investigación profunda fue que solo estaba disponible para los usuarios de ChatGPT Pro que pagaron $ 200 por mes.
Este ya no es el caso. Esta semana, Openai hizo una investigación profunda a disposición de todos los usuarios de ChatGpt Plus, Team, Enterprise y EDU. Los usuarios de estos niveles reciben 10 consultas por usuario por mes, lo cual es suficiente para tener una idea de cuán poderosa puede ser esta herramienta. Lo pensamos de esta manera: por $ 20 por mes, puede obtener 10 informes de investigación personalizados que están en o superiores al nivel que muchos humanos producirían, y solo tomará aproximadamente 10 minutos generar cada uno. Aún mejor, puede solicitar estos informes cuando lo desee, sobre cualquier tema que atraiga su interés, sin alejar a nadie de su otro trabajo. Hace que sea mucho más fácil y menos costoso, en términos de tiempo, energía y atención, explorar los temas que elija, incluso si es un interés pasajero.
Si es escéptico sobre exactamente cuán inteligente es la investigación profunda, Timothy Lee realizó un experimento que vale la pena su tiempo para leer. Le pidió a 19 de sus lectores, que trabajan como maestros, abogados, ingenieros y más, que usen investigaciones profundas y evalúen su producción. De estos 19 profesionales, 17 creía que la producción se comparaba favorablemente con al menos Los trabajadores de nivel de entrada en su campo con siete lo comparan favorablemente con el trabajo de profesionales experimentados. Y produce estas salidas en minutos, en lugar de horas o días.
Hacemos nuestro mejor esfuerzo en Confluencia para señalarlo a los desarrollos en IA generativa que tienen nuestra atención (y creemos que deberían tener el suyo). Si aún no ha utilizado investigaciones profundas, sugerimos probarlo ahora. Creemos que estarás atónito, como hemos estado.
Una nueva oportunidad para la adopción masiva de IA generativa.
Esta semana, Amazon dio a conocer Alexa+, su asistente virtual de próxima generación impulsado por IA generativo a través de una asociación con antrópico y basado en el modelo de lenguaje grande Claude muy poderoso de Anthrope (el modelo que usamos más día a día). Amazon pronostica que el nuevo Alexa participará en conversaciones “expansivas y naturales”, y que será más capaz de ayudar a los usuarios a realizar tareas diarias. Amazon planea desplegar Alexa+ en los Estados Unidos en las próximas semanas durante un período de acceso temprano (Puede solicitar ser considerado para el acceso temprano aquí), priorizando a los propietarios de dispositivos Alexa más sofisticados. El servicio será gratuito para todos los miembros de Amazon Prime, y costará a los no miembros $ 19.99/mes. El despliegue planificado potencialmente traerá capacidades de IA avanzadas a millones de hogares en un futuro muy cercano.
Esta integración podría fomentar un nuevo nivel de comprensión pública del valor práctico de la IA. Cuando Amazon lanzó Alexa por primera vez en 2014, creó una nueva categoría de productos que rápidamente ingresó a millones de casas. Hoy, más de 600 millones de dispositivos Alexa operan en todo el mundo, con muchos usuarios que los incorporan a las rutinas diarias: verificar el clima, tocar música, controlar otros dispositivos inteligentes en todo el hogar. La presencia establecida y la familiaridad de Alexa proporcionan una plataforma única para la adopción de IA que requiere un cambio de comportamiento mínimo o el aprendizaje de interfaz de los usuarios. Si Anthrope y Amazon se ejecutan bien, esta asociación podría demostrar las capacidades de IA de una manera accesible que resuena más allá de la multitud experta en tecnología.
Pero ese es un considerable “si”. Escribimos el año pasado con optimismo Sobre la inteligencia de Apple de Apple poniendo el poder de la IA en los bolsillos en todo el mundo, pero la tecnología se ha decepcionado. Una búsqueda rápida de Google para “¿Por qué la inteligencia de Apple es tan mala?“Produce páginas de explicadores tratando de responder esa pregunta.
No asumimos que Alexa+ revolucionará inmediatamente la adopción generativa de IA. Dicho esto, el desarrollo merece atención. Amazon afirma haber creado avances técnicos, incluidos “expertos” (sistemas, capacidades e instrucciones para tareas específicas) y “capacidades de agente”, permitiendo que Alexa naveguen de Internet de forma independiente para completar las tareas. La verdadera prueba para Alexa+ no se encuentra en la ambiciosa presentación de Amazon, sino en si ofrece utilidad genuina en salas de estar cuando el centro de atención de marketing se desvanece. Estaremos mirando con interés.
El nuevo video fundador de Operai, Andrej Karpathy, proporciona una valiosa descripción general del estado actual de herramientas y capacidades.
Primero señalamos Confluencia lectores de uno de Andrej Karpathyvideos en Noviembre de 2023. El video en ese caso fue su charla de “Introducción a modelos de idiomas grandes”, que mostró la capacidad de Karpathy para traducir su profunda experiencia en explicaciones accesibles para los no tecnólogos. En las últimas semanas, ha publicado dos nuevos videos, nuevamente dirigidos a una audiencia general no técnica. Esta semana vimos a uno de ellos “Cómo uso LLM”y recomiende que cualquier persona que quiera ponerse al día o profundice en el estado actual de las herramientas y capacidades de LLM hagan lo mismo. Es largo, a poco más de dos horas, pero si lo divides en trozos (como lo hicimos), es manejable.
Quizás la mayor fuerza del video es su enfoque práctico. Es “un tutorial práctico y impulsado por el ejemplo de modelos de idiomas grandes y su creciente lista de características relacionadas”. Al igual que lo hacemos en nuestros seminarios y en sesiones con clientes, Karpathy gasta casi todo el video demostrando estas herramientas y capacidades en lugar de explicarlas. Igualmente valioso es la cobertura de Karpathy de una amplia gama de herramientas, incluidos ChatGPT, Claude, Gemini, Grok, Perpleity, NotebookLM y Cursor. Muchos videos de descripción general como este se centran en una herramienta específica, por lo que ver la karpathy trabajar a través de todos estos y demostrar sus similitudes y diferencias en tiempo real es particularmente valioso.
Para proporcionar una sensación de cuánto cubre, en términos de herramientas y características, esta es la lista de segmentos con estampado de tiempo en el video:
Los “capítulos” que se muestran arriba se mueven de más simples a más complejos y sofisticados a medida que avanza el video, que es otra fuerza del enfoque de Karpathy. En el transcurso del video, Karpathy construye una visualización del estado actual de LLMS, lo que finalmente resulta en la imagen a continuación. Al principio, el lienzo está en blanco. En cada capítulo, Karpathy agrega una nueva pieza a esto, proporcionando descripciones y demostraciones accesibles de cada uno como él.
Para cualquiera que quiera ponerse al día, no solo en las últimas herramientas y capacidades, sino en cómo funcionan y cómo se comparan entre sí, el video de Karpathy sería dos horas bien gastadas. Este video seguramente tendrá una vida útil limitada; de hecho, Claude 3.7 fue lanzado mientrasKarpathy estaba filmando el videoy GPT-4.5 fue lanzado el día después de su publicación. Por ahora, sin embargo, podría decirse que es la descripción general más completa y accesible del panorama actual que conocemos. Y hablando de lo rápido que se mueven las cosas …
Las cosas están cambiando rápidamente, pero esto es lo que estamos usando y para lo que, en los principales modelos generativos de IA generativos de hoy.
En las últimas semanas, parece que los poderosos nuevos modelos de IA generativos han estado volando de los estantes como … lo que sea que salga de los estantes en su parte del mundo. Incluso tenemos dificultades para mantenernos al día, y tenemos mucho trabajo por hacer para descubrir dónde sobresale cada modelo. Dicho esto, aquí está la pila actual de modelos que usamos diariamente para fines particulares, en caso de que sea de ayuda. Su uso puede variar.
Nuestro controlador diario: Claude Sonnet 3.7 (antrópico). Esta es nuestra opción. Lo usamos para análisis, escritura, asociación de pensamiento, codificación, casi todo lo que no sean los casos de uso específicos a continuación. Hemos preferido a Claude durante más de un año, y Sonnet 3.7 sigue siendo nuestra mejor opción para la mayor parte de nuestro trabajo. Encender su opción de “pensamiento” trae razonamiento a sus respuestas, lo que las hace aún más poderosas. Sonnet 3.7 es increíble.
Informes de investigación: Investigación profunda de Openai. Esta herramienta crea largos documentos informativos o informes de investigación (de cinco a 20 páginas o más, a menudo con más de 100 citas) en temas específicos. Todavía no es realmente confiable en la revisión de la literatura académica, ya que gran parte de la literatura permanece detrás de los paredes de pago, y a veces puede superar sobre algunas fuentes, pero si desea ser razonablemente inteligente sobre algo en poco tiempo, esta herramienta es increíble. Asegúrese de verificar cualquier hecho que pueda causar un riesgo de reputación si están equivocados, y solicite a otro modelo que critique el resultado para asegurarse de tener una perspectiva equilibrada. Consulta de ejemplo:
Research the concept of resilience. Consider what the published academic literature has to say about resilience in organizations, teams, communities, and individuals. Apply those findings to a leadership context, extrapolating reasonable conclusions that leaders should draw about fostering resilience in the people they lead in organizations and professional settings. Avoid cliches, tropes, and consultant mythology. Ground your search in what the literature has to say about the best ways to foster resilience in organizations, teams, and people. Pay particular attention to specific behaviors, routines, and actions that leaders can incorporate into their daily practice to foster resilience in others.
Pensamiento profundo de un colega brillante: OpenAi O1. Usamos este modelo cuando queremos un pensamiento muy profundo y particular sobre un tema. ¿Por qué “en particular”? ” Hemos llegado a la opinión de que los modelos de idiomas grandes son una forma de inteligencia alienígena. No estamos diciendo que sean sensibles, pero claramente piensan de manera diferente a lo que hacemos (de hecho, nadie sabe realmente cómo piensan), y son claramente inteligentes. O1 es “muy” en ambas dimensiones. Así que lo consideramos como un colega brillante que ve las cosas de manera diferente a lo que hacemos. No le damos muchas consultas, pero cuando tenemos un problema sobre el cual nos gustaría una perspectiva inteligente y diferente con mucho razonamiento detrás de esto, O1 es nuestra opción. Consultas de ejemplo:
Research the time management practice of time boxing or time blocking. Consider how Cal Newport and Oliver Burkeman use this strategy. Offer specific strategies for how to apply it in my life, knowing that my calendar is often pre-planned in advance by my Executive Assistant. Consider the effects of the planning fallacy. Consider how I could best implement this knowing that my primary planning tools are Outlook Calendar and a remarkable 2 digital notebook. Make your thinking practical. As context, note that I lack deep work time, and I sense that I don't focus as much as I should on priorities and big rocks day-to-day. Ideal outcome is better throughput of priority items at work and home. I have blocks of time I can protect. I use the remarkable for notes and reflection, but can also use it for planning. Tasks are kept in a set of next action categories in a to-do app (for now at least).
Write your best case study to create a conversation about judgement among a group of mid-career strategic communication consultants in our firm. Don’t be beholden to popular forms like that of Harvard B School. Use your own intellect to create the content and design however you see fit with the goal of fostering a credible dialogue in which our consultants develop their professional judgment.
Generación de imágenes: Midjourney. Hay otras herramientas de generación de imágenes, pero para nosotros, MidJourney sigue siendo la mejor herramienta. Lo usamos para crear las imágenes de encabezado en Confluenciay ahora que puede usarlo como sitio web y no a través de Discord, no hay razón para no usar MidJourney. Al igual que cualquier herramienta de IA generativa, lo que obtienes depende mucho de cómo se indique, por lo que es útil pasar un tiempo para aprender sus entresijos. Incluso hemos creado un proyecto de Claude que hemos hecho una lluvia de ideas de ideas e indicaciones para nosotros. Ejemplo de indica (y la salida):
Mark Rothko-inspired abstract expressionist painting, horizontal rectangular color fields transitioning from earth browns at bottom to vibrant reds and oranges at top, subtle digital texture embedded in the color transitions, corporate silhouettes at bottom edge, 4:3 aspect ratio, oil painting texture --ar 4:3 --v 6
Actualizaciones sobre eventos actuales: Grok 3. No mucha gente está hablando de eso, pero Grok 3 es un modelo sorprendentemente bueno, y es sorprendente si consideras que X lo desarrolló en meses. Definitivamente es diferente de los otros modelos, en parte porque casi cualquier cosa sucede en Grok. Puede ser divertido, extraño, crudo … y muy efectivo, especialmente para resumir los eventos actuales, ya que es un modelo de razonamiento que busca tanto la web como X. Nuevamente, verifique cualquier hecho que planifique citar. Consulta de ejemplo (y en este caso, salida, ya que no hemos escrito mucho sobre Grok; al crear su respuesta, Grok pensó durante 18 segundos y leí 11 x publicaciones y 15 páginas web):
Us:
The NASCAR race at COTA is today. Bring me up to speed on what's new with it over the past 24 hours.
Grok:
The NASCAR Cup Series race at the Circuit of the Americas (COTA) is happening today, Sunday, March 2, 2025, at 3:30 p.m. ET. Here’s a rundown of what’s new and noteworthy over the past 24 hours as you get ready for the event.
New Track Layout and Race Format
This year, NASCAR has switched to a shorter version of the COTA circuit, dubbed the "National" circuit. It’s 2.4 miles long with 20 turns, a big shift from the full 3.4-mile layout used in previous years. The new design eliminates the long straightaways and introduces a sharp, acute left-hander at Turn 6A, which should open up more passing zones—and potentially lead to some on-track chaos. To adjust for the shorter track, the race has been extended to 95 laps, up from 68 laps in prior years. This means more racing action for fans and a fresh strategic challenge for teams.
Key Driver and Team Updates
William Byron, last year’s winner, is chasing consecutive victories at COTA but will start from 15th today.
Tyler Reddick, the 2023 COTA winner, grabbed pole position and looks like a top contender.
Shane van Gisbergen, a road course ace and three-time Supercars champion, has been fast in practice and is pegged as a favorite.
Connor Zilisch, an 18-year-old phenom, is making his NASCAR Cup Series debut. He’s already won big races like the Rolex 24 at Daytona and the 12 Hours of Sebring, so all eyes are on him.
On the team front, 23XI Racing dominated qualifying, locking out the front row, while Trackhouse Racing has three cars in the top 10, promising a fierce fight up front.Technical Changes to Watch
Repaved Track Surface: Sections of the track, particularly Turns 2-8, have been freshly paved. This could shake up grip levels and tire wear, making adaptability key.
New Goodyear Tires: A new tire compound is in play this year, adding another layer of intrigue to race strategy. Teams will likely lean toward a three-stop strategy, though some might risk a two-stop gamble with the longer race.
Fan Experience and Weather
NASCAR’s keeping fans entertained with extras like dance troops from America’s Got Talent and pig races.
Weather’s looking ideal: sunny skies, 70s temperatures, and just a 5% chance of rain.
Future Uncertainty
There’s a question mark hanging over COTA’s NASCAR future. The rental deal between Speedway Motorsports and COTA expires this year, and while a 2026 return is anticipated, nothing’s locked in yet.
With a revamped track, a longer race, and a stacked field of veterans and rising stars, today’s event is gearing up to be a wild one. Enjoy the show!
Hay otros modelos que son buenos en la generación de videos (VEO 2 de Google) y la música (Suno AI), pero no los usamos mucho día a día. No sabemos mucho sobre a dónde va todo esto, pero sí lo sabemos: nuestra lista será diferente en seis meses. Así que continuaremos publicando esta lista de vez en cuando.
Te dejaremos con algo genial: más allá de los puntos de referencia técnicos, hay algunos en Anthrope que miden las capacidades de Claude de una manera diferente … ¿Qué tan lejos puede llegar a jugar Pokémon Red?. Incluso puedes ver una transmisión en vivo de Claude jugando el juego en Twitch.
Compartir
AI Disclosure: We used generative AI in creating imagery for this post. We also used it selectively as a creator and summarizer of content and as an editor and proofreader.
La mayoría de la gente sabe que la famosa prueba de Turing, un experimento de mentalidad concebido por el pionero informático Alan Turing, es una medida popular de progreso en la inteligencia artificial.
Muchos suponen erróneamente, sin embargo, que es una prueba de que las máquinas realmente están pensando.
La última investigación sobre la prueba de Turing de los académicos de la Universidad de California en San Diego muestra que el último modelo de lenguaje grande de OpenAi, GPT-4.5, puede engañar a los humanos para que piensen que el modelo de IA es una persona en chats de texto, incluso más que un humano puede convencer a otra persona de que es humano.
También: Cómo usar ChatGPT: una guía para principiantes para el chatbot de IA más popular
Ese es un avance en la capacidad de Gen AI para producir un resultado convincente en respuesta a un aviso.
Universidad de California en San Diego
Prueba de agi?
Pero incluso los investigadores reconocen que superar la prueba de Turing no significa necesariamente que se haya logrado la “inteligencia general artificial” o AGI, un nivel de procesamiento de computadora equivalente al pensamiento humano.
La académica de IA Melanie Mitchell, profesora del Instituto de Santa Fe en Santa Fe, Nuevo México, ha escrito en la revista académica Science que la prueba de Turing es menos una prueba de inteligencia per se y más una prueba de supuestos humanos. A pesar de los altos puntajes en la prueba, “la capacidad de sonar fluida en el lenguaje natural, como tocar el ajedrez, no es una prueba concluyente de inteligencia general”, escribió Mitchell.
Cameron Jones y Benjamin Bergen de UC San Diego describen el último rendimiento convincente en un artículo publicado en el servidor de pre-impresión ARXIV esta semana, titulado “Los modelos de idiomas grandes pasan la prueba de Turing”.
También: Operai expande el despliegue GPT-4.5. Aquí le mostramos cómo acceder (y qué puede hacer por usted)
El documento es la última entrega en un experimento que Jones y Bergen han estado ejecutando durante años con la participación de los estudiantes universitarios de UC San Diego del departamento.
Como señalan los autores, ha habido décadas de trabajo sobre el problema. Hasta la fecha, ha habido “más de 800 reclamos y contraargumentos separados que se han hecho” sobre las computadoras que pasan la prueba.
Cómo funciona la prueba de Turing
La prueba de Turing fue concebida clásicamente por Turing como una ronda de mensajes de texto que pasan entre un “juez” humano y dos “testigos”, uno un humano y otro una computadora.
La computadora y los testigos humanos fueron acusados de convencer al juez humano de que eran humanos por los mensajes que cada uno envió. El juez sabe que solo uno de los dos es humano, pero no cuál es lo que y tiene que adivinar.
Esa forma de tres vías es esencial. Significa que si el juez considera erróneamente una computadora humana, entonces el juez también perdió las pistas que deberían haber obtenido de lo humano sobre la humanidad.
También: Con los modelos de IA que golpean cada punto de referencia, es hora de la evaluación humana
En otras palabras, es una prueba tanto sobre cómo los humanos perciben y creen que el funcionamiento de la computadora.
El diseño actualizado de Jones y Bergen se publica en línea, y puedes jugar el juego tú mismo, como juez o testigo.
Como en versiones anteriores, se pidió a los estudiantes humanos de UC San Diego que participaran en una aplicación de chat de texto. Algunos de los estudiantes interpretaron al juez y otros al testigo humano en intercambios de chat de cinco minutos aleatorios, mientras que GPT-4.5 interpretó al testigo de la computadora. Cada juez tuvo conversaciones simultáneas con un testigo humano y informático para adaptarse a la forma de tres vías de la formulación de Turing.
Para interpretar a la computadora testigo, se utilizaron múltiples modelos de lenguaje grande, ingresados con los desafíos del juez en un aviso. GPT-4.5 se probó con dos indicaciones diferentes. Un mensaje recibió información mínima. Pero un segundo, llamado Persona, recibió muchos detalles adicionales en el mensaje, incluidas “instrucciones adicionales sobre qué tipo de persona adoptar para responder al interrogador: específicamente una persona joven introvertida, conocedora de la cultura de Internet y usa la jerga”, escriben los autores.
Universidad de California en San Diego
Los resultados
Se probaron otros tres programas de IA: el modelo anterior de OpenAI, GPT-4O; Meta Platforms’s Llama 3.1 405b; y un programa de bot de chat muy antiguo de la década de 1960, llamado Eliza. Eliza se incluyó porque, como un programa más primitivo, podría actuar como una verificación de si los modelos de idiomas grandes engañaban a un humano simplemente por azar a aleatorias o porque en realidad eran mejores programas.
GPT-4.5, informa Jones y Bergen, tenían una “tasa de victorias” del 73%, lo que significa que engañó al juez humano para que lo declarara humano el 73% del tiempo. Por el contrario, la versión de GPT-4.5 con el aviso minimalista y los otros tres programas de IA no se acercaron tan bien, con puntajes que van del 21% al 56%, incluso cuando los otros modelos de idiomas recibieron un aviso de persona igualmente rica.
También: ¿Chatgpt Plus o Pro vale la pena? Así es como se comparan con la versión gratuita
Además, GPT-4.5 estuvo muy por encima de una prueba de GPT-4 el año pasado por Jones y Bergen. Tenía una tasa de victorias de solo 54%, justo por encima de la oportunidad aleatoria.
Jones y Bergen concluyen que “los interrogadores no solo no pudieron identificar al verdadero testimonio humano, sino que, de hecho, tenían más probabilidades de creer que este modelo era humano que el que otros participantes humanos”.
¿La prueba es realmente una medida de inteligencia?
Por lo tanto, puede preguntar qué significa que los humanos hacen un mal trabajo al contarle a una computadora y a una persona en función de los mensajes de chat.
La “pregunta más controvertida” sobre el problema de Turing a lo largo de las décadas es si realmente está medir la inteligencia, Jones y Bergen reconocen.
Una forma de verlo es que las máquinas se han vuelto tan buenas que pueden “adaptar su comportamiento a diferentes escenarios que los hacen tan flexibles: y aparentemente tan capaces de pasar como humanos”, observan. El indicador de la persona, creado por los humanos, es algo a lo que GPT-4.5 “se adaptó” para ganar.
Nuevamente, es un avance técnico genuino en las capacidades del modelo AI.
También: Chatgpt Plus es gratis para los estudiantes ahora, cómo obtener este trato antes de las finales
Sin embargo, una gran queja ante la prueba es que los humanos podrían ser simplemente malos para reconocer la inteligencia. Los autores concluyen que su experimento es evidencia de eso, al menos parcialmente.
Señalan que el 23% del tiempo, el programa Eliza más antiguo engañó a los jueces humanos. Según se relacionan, eso no fue porque de alguna manera era obviamente más inteligente. “Muchos participantes seleccionaron a Eliza porque no cumplió con sus expectativas de un sistema de IA (por ejemplo, ‘fueron sarcásticos’ o ‘No creo que la IA sea tan grosera’)”, escriben.
Esas suposiciones, escriben, “sugieren que las decisiones de los interrogadores incorporan suposiciones complejas sobre cómo los humanos y los sistemas de IA podrían comportarse en estos contextos, más allá de simplemente seleccionar el agente más inteligente”.
De hecho, los jueces humanos no preguntaron mucho sobre el conocimiento en sus desafíos, a pesar de que Turing pensó que ese sería el criterio principal. “[O]NE de las razones más predictivas de veredictos precisos “por el juez humano, escriben,” era que un testigo era humano porque carecían de conocimiento “.
Sociabilidad, no inteligencia
Todo esto significa que los humanos estaban recogiendo cosas como la sociabilidad en lugar de la inteligencia, lo que llevó a Jones y Bergen a concluir que “fundamentalmente, la prueba de Turing no es una prueba directa de inteligencia, sino una prueba de luz humana”.
Para Turing, la inteligencia puede haber parecido ser la mayor barrera para aparecer como humano y, por lo tanto, para pasar la prueba de Turing. Pero a medida que las máquinas se vuelven más similares a nosotros, otros contrastes han caído en un alivio más agudo, hasta el punto de que la inteligencia por sí sola no es suficiente para parecer convincentemente humano.
Los autores no han dicho que los humanos se han acostumbrado a escribir en una computadora, para una persona o para una máquina, que la prueba ya no es una nueva prueba de interacción humano-computadora. Es una prueba de hábitos humanos en línea.
Una implicación es que la prueba debe ampliarse. Los autores escriben que “la inteligencia es compleja y multifacética”, y “ninguna prueba única de inteligencia podría ser decisiva”.
También: Gemini Pro 2.5 es un asistente de codificación increíblemente capaz, y una gran amenaza para chatgpt
De hecho, sugieren que la prueba podría salir muy diferente con diferentes diseños. Los expertos en IA, señalan, podrían ser probados como una cohorte de juez. Podrían juzgar de manera diferente a los laicos porque tienen diferentes expectativas de una máquina.
Si se agregara un incentivo financiero para elevar las apuestas, los jueces humanos podrían analizar de manera más estrecha y cuidadosa. Esos son indicios de que la actitud y las expectativas juegan un papel.
“En la medida en que la prueba de Turing hace inteligencia índice, debe considerarse entre otros tipos de evidencia”, concluyen.
Esa sugerencia parece cuadrar con una tendencia creciente en el campo de investigación de IA para involucrar a los humanos “en el bucle”, evaluando y evaluando lo que hacen las máquinas.
¿Es suficiente el juicio humano?
Se queda abierto la cuestión de si el juicio humano será en última instancia suficiente. En la película Blade Runner, los robots “replicantes” en medio de ellos se han vuelto tan buenos que los humanos confían en una máquina, “Voight-Kampff”, para detectar quién es humano y quién es robot.
A medida que la búsqueda continúa llegando a AGI, y los humanos se dan cuenta de lo difícil que es decir qué es AGI o cómo la reconocerían si se toparan con ella, tal vez los humanos tendrán que confiar en las máquinas para evaluar la inteligencia de la máquina.
También: 10 razones clave por las que la IA fue la corriente principal durante la noche, y lo que sucede después
O, al menos, pueden tener que preguntar a las máquinas qué máquinas “piensan” sobre los humanos que escriben las indicaciones para tratar de hacer que una máquina engañe a otros humanos.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.
He estado a bordo del tren de IA generativo desde los primeros días de Openai, antes del lanzamiento de Chatgpt y, finalmente, Microsoft invirtiendo miles de millones de dólares en OpenAi.
En el papel, Microsoft se supone que se encuentra entre las principales compañías tecnológicas en el espacio de IA, debido a su inversión multimillonaria y los estrechos lazos con OpenAI como su mayor inversor y proveedor exclusivo de la nube (bueno, al menos hasta que SoftBank bombardeó el mejor “Bromance” tecnológico en la historia con su ambiente proyecto de $ 500 mil millones).
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Los investigadores de la Fundación Sentient han publicado Open Deep Search (ODS), un marco de código abierto que puede igualar la calidad de las soluciones de búsqueda de IA patentadas, como la perplejidad y la búsqueda de CHATGPT. ODS equipa modelos de idiomas grandes (LLM) con agentes de razonamiento avanzado que pueden usar la búsqueda web y otras herramientas para responder preguntas.
Para las empresas que buscan herramientas de búsqueda de IA personalizables, ODS ofrece una alternativa convincente y de alto rendimiento a las soluciones comerciales cerradas.
El paisaje de búsqueda de IA
Las herramientas de búsqueda de IA modernas como Perplexity y ChatGPT Search pueden proporcionar respuestas actualizadas combinando las capacidades de conocimiento y razonamiento de LLMS con la búsqueda web. Sin embargo, estas soluciones son típicamente patentadas y de código cerrado, lo que dificulta la personalización de ellas y adoptarlas para aplicaciones especiales.
“La mayoría de la innovación en la búsqueda de IA ha sucedido a puerta cerrada. Los esfuerzos de código abierto se han retrasado históricamente en usabilidad y rendimiento”, dijo a VentureBeat de Himanshu Tyagi, cofundador de Sentient. “ODS tiene como objetivo cerrar esa brecha, mostrando que los sistemas abiertos pueden competir, e incluso superar, las contrapartes cerradas sobre la calidad, la velocidad y la flexibilidad”.
Arquitectura de búsqueda profunda (ODS) abierta
Open Deep Search (ODS) está diseñado como un sistema plug-and-play que puede integrarse con modelos de código abierto como Deepseek-R1 y modelos cerrados como GPT-4O y Claude.
ODS comprende dos componentes centrales, ambos aprovechando la base elegida LLM:
Herramienta de búsqueda abierta: Este componente toma una consulta y recupera información de la web que se puede dar al LLM como contexto. La herramienta de búsqueda Open realiza algunas acciones clave para mejorar los resultados de búsqueda y asegurarse de que proporcione un contexto relevante para el modelo. Primero, reformula la consulta original de diferentes maneras para ampliar la cobertura de búsqueda y capturar diversas perspectivas. Luego, la herramienta obtiene resultados de un motor de búsqueda, extrae el contexto de los resultados superiores (fragmentos y páginas vinculadas), y aplica técnicas de fragmentación y reanimación para filtrar el contenido más relevante. También tiene un manejo costumbre para fuentes específicas como Wikipedia, ARXIV y PubMed, y puede solicitarse a priorizar fuentes confiables al encontrar información contradictoria.
Agente de razonamiento abierto: Este agente recibe la consulta del usuario y utiliza la base LLM y varias herramientas (incluida la herramienta de búsqueda abierta) para formular una respuesta final. Sentient proporciona dos arquitecturas de agentes distintos dentro de ODS:
ODS-V1: Esta versión emplea un marco de agente React combinado con el razonamiento de la cadena de pensamiento (COT). Los agentes reaccionados intercalan pasos de razonamiento (“pensamientos”) con acciones (como usar la herramienta de búsqueda) y las observaciones (los resultados de las herramientas). ODS-V1 usa reaccionar iterativamente para llegar a una respuesta. Si el agente React lucha (según lo determinado por un modelo de juez separado), es predeterminado a una autoconsistencia de COT, que muestra varias respuestas de cuna del modelo y usa la respuesta que aparece con más frecuencia.
ODS-V2: Esta versión aprovecha la cadena de código (COC) y un agente CodeAct, implementado utilizando la biblioteca de Sumolagents Face. COC utiliza la capacidad de LLM para generar y ejecutar fragmentos de código para resolver problemas, mientras que CodeAct usa la generación de código para las acciones de planificación. ODS-V2 puede orquestar múltiples herramientas y agentes, lo que le permite abordar tareas más complejas que pueden requerir una planificación sofisticada y iteraciones de búsqueda potencialmente múltiples.
Crédito de arquitectura ODS: ARXIV
“Si bien herramientas como ChatGPT o Grok ofrecen ‘investigación profunda’ a través de agentes de conversación, ODS opera en una capa diferente, más similar a la infraestructura detrás de la perplejidad de IA, que proporciona la arquitectura subyacente que impulsa la recuperación inteligente, no solo los resúmenes”, dijo Tyagi.
Rendimiento y resultados prácticos
Sentient evaluó ODS emparejándolo con el modelo de código abierto Deepseek-R1 y probándolo contra competidores populares de código cerrado como Perplexity AI y la vista previa de búsqueda GPT-4O de OpenAI, así como LLMS independientes como GPT-4O y LLAMA-3.1-70B. Usaron los marcos y los puntos de referencia de SimpleQA Pregunta-Respuesta, adaptándolos para evaluar la precisión de los sistemas de IA habilitados para la búsqueda.
Los resultados demuestran la competitividad de ODS. Tanto ODS-V1 como ODS-V2, cuando se combinan con Deepseek-R1, superaron a los productos insignia de Perplexity. En particular, ODS-V2 combinado con Deepseek-R1 superó la vista previa de búsqueda GPT-4O en el complejo punto de referencia de marcos y casi lo coincidió en SimpleQA.
Una observación interesante fue la eficiencia del marco. Los agentes de razonamiento en ambas versiones de ODS aprendieron a usar la herramienta de búsqueda juiciosamente, a menudo decidieron si era necesaria una búsqueda adicional en función de la calidad de los resultados iniciales. Por ejemplo, ODS-V2 utilizó menos búsquedas web en las tareas SimpleQA más simples en comparación con las consultas más complejas y múltiples en marcos, optimizando el consumo de recursos.
Implicaciones para la empresa
Para las empresas que buscan potentes capacidades de razonamiento de IA basadas en información en tiempo real, ODS presenta una solución prometedora que ofrece una alternativa transparente, personalizable y de alto rendimiento a los sistemas de búsqueda de IA patentados. La capacidad de enchufar LLM y herramientas de código abierto preferidos brinda a las organizaciones un mayor control sobre su pila de IA y evita el bloqueo del proveedor.
“ODS fue construido con modularidad en mente”, dijo Tyagi. “Selecciona qué herramientas usar dinámicamente, en función de las descripciones proporcionadas en la solicitud. Esto significa que puede interactuar con herramientas desconocidas con fluidez, siempre y cuando estén bien descritadas, sin requerir exposición previa”.
Sin embargo, reconoció que el rendimiento de ODS puede degradarse cuando el conjunto de herramientas se hincha, “un diseño tan cuidadoso importa”.
Sensient ha lanzado el código para ODS en GitHub.
“Inicialmente, la fuerza de la perplejidad y el chatgpt era su tecnología avanzada, pero con ODS, hemos nivelado este campo de juego tecnológico”, dijo Tyagi. “Ahora nuestro objetivo es superar sus capacidades a través de nuestra estrategia de ‘Entradas abiertas y salidas abiertas’, lo que permite a los usuarios integrar sin problemas a los agentes personalizados en un chat sensible”.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.