Noticias
Popular AIS cara a cabeza: OpenAi vence a Deepseek en el razonamiento a nivel de oración
Published
3 semanas agoon

Escrito por Manas Gaur, profesor asistente en Informática e Ingeniería Eléctrica, UMBC
Chatgpt y otros chatbots de IA basados en modelos de idiomas grandes se sabe que ocasionalmente inventa cosas, incluidas las citas científicas y legales. Resulta que medir cuán precisas son las citas de un modelo AI es una buena manera de evaluar las habilidades de razonamiento del modelo.
Un modelo de IA “razones” descomponiendo una consulta en pasos y trabajando a través de ellos en orden. Piense en cómo aprendió a resolver problemas de palabras matemáticas en la escuela.
Idealmente, para generar citas, un modelo de IA comprendería los conceptos clave en un documento, generaría una lista clasificada de documentos relevantes para citar y proporcionaría un razonamiento convincente sobre cómo cada documento sugerido respalda el texto correspondiente. Destacará las conexiones específicas entre el texto y la investigación citada, aclarando por qué cada fuente importa.
La pregunta es, ¿se puede confiar en los modelos de hoy para hacer estas conexiones y proporcionar un razonamiento claro que justifique sus elecciones de origen? La respuesta va más allá de la precisión de las citas para abordar cuán útiles y precisos son los modelos de lenguaje grande para cualquier propósito de recuperación de información.
Soy un informático. Mis colegas, investigadores del Instituto AI de la Universidad de Carolina del Sur, la Universidad Estatal de Ohio y el Condado de Baltimore del Condado de Baltimore, y he desarrollado las razones de referencia para probar qué tan bien modelos de idiomas pueden generar automáticamente citas de investigación y proporcionar un razonamiento comprensible.
Utilizamos el punto de referencia para comparar el rendimiento de dos modelos de razonamiento de IA populares, Deepseek’s R1 y OpenAI’s O1. Aunque Deepseek fue en los titulares con su impresionante eficiencia y rentabilidad, el advenedizo chino tiene un camino por recorrer para que coincida con el rendimiento de razonamiento de OpenAI.
Oración específica
La precisión de las citas tiene mucho que ver con si el modelo AI está razonando sobre la información a nivel de oración en lugar del párrafo o a nivel de documentos. Se puede considerar que las citas a nivel de párrafo y a nivel de documentos arrojan una gran parte de la información a un modelo de idioma grande y le piden que proporcione muchas citas.
En este proceso, el modelo de lenguaje grande se generaliza e incorporan las oraciones individuales. El usuario termina con citas que explican todo el párrafo o documento, no la información de grano relativamente fino en la oración.
Además, el razonamiento sufre cuando le pide al modelo de idioma grande que lea un documento completo. Estos modelos se basan principalmente en memorizar patrones que típicamente son mejores para encontrar al principio y al final de los textos más largos que en el medio. Esto les dificulta comprender completamente toda la información importante a lo largo de un documento largo.
Los modelos de idiomas grandes se confunden porque los párrafos y documentos tienen mucha información, lo que afecta la generación de citas y el proceso de razonamiento. En consecuencia, el razonamiento de los modelos de idiomas grandes sobre los párrafos y los documentos se vuelve más como resumir o parafrasear.
Las razones por las que Benchmark aborde esta debilidad al examinar la generación y el razonamiento de las citas de los modelos de idiomas grandes.
Prueba de citas y razonamiento
Tras el lanzamiento de Deepseek R1 en enero de 2025, queríamos examinar su precisión en la generación de citas y su calidad de razonamiento y compararlo con el modelo O1 de OpenAI. Creamos un párrafo que tenía oraciones de diferentes fuentes, dio a los modelos oraciones individuales de este párrafo y pedimos citas y razonamiento.
Para comenzar nuestra prueba, desarrollamos un pequeño lecho de prueba de aproximadamente 4,100 artículos de investigación alrededor de cuatro temas clave que están relacionados con el cerebro humano y la informática: neuronas y cognición, interacción humana-computadora, bases de datos e inteligencia artificial. Evaluamos los modelos utilizando dos medidas: la puntuación F-1, que mide cuán precisa es la cita proporcionada, y la tasa de alucinación, que mide cuán sonido es el razonamiento del modelo, es decir, con qué frecuencia produce una respuesta inexacta o engañosa.
Nuestras pruebas revelaron diferencias de rendimiento significativas entre OpenAI O1 y Deepseek R1 en diferentes dominios científicos. El O1 de OpenAI conectó bien la información entre los diferentes sujetos, como comprender cómo la investigación sobre neuronas y cognición se conecta con la interacción humana y la computadora y luego con los conceptos en inteligencia artificial, sin dejar de ser precisa. Sus métricas de rendimiento superaron constantemente a Deepseek R1 en todas las categorías de evaluación, especialmente para reducir las alucinaciones y completar con éxito las tareas asignadas.
Operai O1 fue mejor para combinar ideas semánticamente, mientras que R1 se centró en asegurarse de que generara una respuesta para cada tarea de atribución, lo que a su vez aumentó la alucinación durante el razonamiento. Openai O1 tenía una tasa de alucinación de aproximadamente 35% en comparación con la tasa de Deepseek R1 de casi el 85% en la tarea de razonamiento basada en la atribución.
En términos de precisión y competencia lingüística, Openai O1 obtuvo alrededor de 0.65 en la prueba F-1, lo que significa que era correcto aproximadamente el 65% del tiempo al responder preguntas. También obtuvo alrededor de 0.70 en la prueba BLEU, que mide qué tan bien un modelo de lenguaje escribe en lenguaje natural. Estos son puntajes bastante buenos.
Deepseek R1 obtuvo un puntaje más bajo, con aproximadamente 0.35 en la prueba F-1, lo que significa que era correcto aproximadamente el 35% del tiempo. Sin embargo, su puntaje Bleu fue solo alrededor de 0.2, lo que significa que su escritura no era tan natural como la O1 de OpenAI. Esto muestra que O1 fue mejor al presentar esa información en un lenguaje claro y natural.
OpenAi tiene la ventaja
En otros puntos de referencia, Deepseek R1 se desempeña a la par con OpenAi O1 en tareas de matemáticas, codificación y razonamiento científico. Pero la diferencia sustancial en nuestro punto de referencia sugiere que O1 proporciona información más confiable, mientras que R1 lucha con la consistencia objetiva.
Aunque incluimos otros modelos en nuestras pruebas integrales, la brecha de rendimiento entre O1 y R1 resalta específicamente el panorama competitivo actual en el desarrollo de IA, con la oferta de OpenAI que mantiene una ventaja significativa en las capacidades de razonamiento e integración del conocimiento.
Estos resultados sugieren que OpenAi todavía tiene una ventaja cuando se trata de atribución y razonamiento de origen, posiblemente debido a la naturaleza y el volumen de los datos en los que fue entrenado. La compañía anunció recientemente su herramienta de investigación profunda, que puede crear informes con citas, hacer preguntas de seguimiento y proporcionar razonamiento para la respuesta generada.
El jurado todavía está en el valor de la herramienta para los investigadores, pero la advertencia permanece para todos: verifique todas las citas que le brinda una IA.
Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original y vea más de 250 artículos UMBC disponibles en la conversación.
Etiquetas: coeit, investigación, la conversación
You may like
Noticias
Las campanas de alarma suenan en nosotros sobre el mundo del proyecto criptoi de OpenAi
Published
29 minutos agoon
14 mayo, 2025World Network, el proyecto de identidad digital y cripto de OpenAI de Sam Altman, ha alarmado a los activistas de la privacidad antes de su lanzamiento de los Estados Unidos, con observadores preocupados por sus prácticas de recopilación y protección de datos.
El mundo “es lo contrario de la privacidad. Es una trampa”, dijo Nick Almond, CEO de Factorydao, en X., Si bien el proyecto afirma proteger la privacidad del usuario en la edad de proliferación de IA, se enfrenta a una serie de preocupaciones regulatorias en todo el mundo.
Anteriormente conocido como “WorldCoin”, la tecnología de escane de Iris y su esquema de pago de tokens criptográficos están siendo investigados por las autoridades en India, Corea del Sur, Italia, Colombia, Argentina, Portugal, Kenia e Indonesia. En España, Hong Kong y Brasil, está directamente prohibido.
La última incursión del mundo en los EE. UU. Podría ser el mayor desafío del CEO Sam Altman hasta el momento, donde las preocupaciones de privacidad aumentan por un mosaico de aplicación que difiere del estado por estado.
Las diferentes leyes de privacidad podrían dejar a los usuarios mundiales abiertos a la discriminación
El 30 de abril, Altman anunció que World se establecería en “Hubs de innovación clave” en cinco estados de los Estados Unidos: Atlanta, Austin, Los Ángeles, Miami, Nashville y San Francisco. Los aspirantes a humanos verificados pueden escanear sus iris en estos centros, dando a los marcadores biomédicos únicos del mundo.
Estos marcadores, por mundo, se pueden usar para demostrar la humanidad de uno al interactuar con otros en plataformas digitales.
Pero a medida que World se expande en los Estados Unidos, un paisaje regulatorio incierto podría desanimar a las personas y dificultar que la plataforma genere confianza de los usuarios.
Andrew Rossow, un abogado cibernético y de asuntos públicos de Rossow Law, dijo a CointeleGraph: “No existe una ley federal integral que regule específicamente los datos biométricos (como los escaneos de iris) en los Estados Unidos”.
De hecho, las leyes difieren estado por estado. Dos estados en los que operará el mundo, Texas y California, tienen alguna forma de protecciones legales en los libros para datos biométricos. Los usuarios de los tres estados restantes, Georgia, Tennessee y Florida, deben confiar en la ley federal, lo que requiere que “las empresas sean transparentes y justas, pero no hay reglas estatales especiales para los escaneos de iris”.
Pero incluso la existencia de la ley estatal no es garantía de protección. En Texas, no existe un derecho de acción privado para los datos biométricos, solo el Fiscal General del Estado (AG) puede hacer cumplir la captura o el uso de la ley de identificadores biométricos del estado.
https://www.youtube.com/watch?v=1x8tachbyjg
Altman anunció la incursión del mundo en el mercado estadounidense en un evento de la compañía hace dos semanas. Fuente: Mundo
“La efectividad de las protecciones de datos del usuario, en lo que respecta al mundo, depende casi por completo de las prioridades, los recursos y la voluntad de Texas AG para actuar”, dijo Rossow.
Una AG más agresiva podría significar protecciones más sólidas, mientras que “una administración menos agresiva podría depilar la aplicación, lo que deja a los consumidores abiertos y vulnerables a la explotación”.
El potencial de explotación es uno de los factores clave que impulsan los esfuerzos activistas contra sistemas como el mundo.
Privacy International, un grupo de protección de la privacidad que apoyó acciones legales en Kenia contra el mundo, afirma que en “la ausencia de marcos legales fuertes y salvaguardas estrictas, las tecnologías biométricas representan amenazas graves para la privacidad y la seguridad personal, a medida que su aplicación puede ampliarse para facilitar la discriminación, el perfil y la vigilancia masiva”.
Relacionado: Más de 70 empresas criptográficas unen fuerzas para abordar el monopolio de IA de Big Tech
Ya en 2021, Amnistía Internacional había planteado preocupaciones sobre la discriminación y las aplicaciones de los sistemas biométricos de metodologías dudosas. Dichos, dijeron, pueden “hacer inferencias y predicciones sobre cosas como el género de las personas, las emociones u otros atributos personales, sufren fallas serias y fundamentales en sus fundamentos científicos”.
“Esto significa que las inferencias que hacen sobre nosotros a menudo son inválidas, en algunos casos incluso operacionalizando las teorías eugenicistas de la frenología y la fisonomía”.
No todos están convencidos de las preocupaciones de los guardianes de privacidad. Tomasz Stańczak, director ejecutivo de la Fundación Ethereum, dijo que ha pasado “más de 100 horas” analizando World, que se está basando en la red Ethereum. Agregó que “parecía muy prometedor y mucho más robusto y centrado en la privacidad que mi intuición inicial”.
Paul Dylan-Ennis, un investigador y académico de Ethereum, dijo que cree que la tecnología del mundo “probablemente es fuerte en términos de privacidad”, pero admitió que la estética podría estar desanimando a las personas: “solo un espejo negro intangible para todo”.
WorldCoin Faces Monting Bans en todo el mundo
Operai puede estar duplicando una estrategia estadounidense, pero otras jurisdicciones en todo el mundo están investigando cada vez más, limitando o prohibiendo directamente las actividades de la empresa.
En 2023, los reguladores en India, Corea del Sur, Kenia, Alemania y Brasil comenzaron a investigar las prácticas de recopilación de datos de la empresa. España se convirtió en el primer país en prohibir la recopilación mundial de datos en marzo de 2024.
Relacionado: El espía norcoreano se desliza, revela lazos en la entrevista de trabajo falsa
La Agencia de Protección de Datos española dijo anteriormente a CointeleGraph que su curso de acción se basó en informes de ciudadanos españoles. Afirmó que los operadores de ORB proporcionaron “información insuficiente, datos recopilados de menores e incluso no permitieron el retiro del consentimiento”.
Después de la prohibición, World publicó una publicación de blog que indica que opera “legalmente en todos los lugares en los que está disponible”.
https://www.youtube.com/watch?v=RPU0SOARTV0
World ha hecho recientemente que sus orbes de escaneo de iris sean más compactos y transportables. Fuente: Mundo
Los reguladores globales no estuvieron de acuerdo. Hong Kong siguió a España en mayo de 2024 y ordenó a World que dejara de operar, ya que supuestamente violaba la ordenanza de privacidad de datos personales de la ciudad-estado.
Siguieron otras acusaciones de prácticas de recopilación de datos inadecuadas, y varios países como Alemania y, más recientemente, Kenia, han ordenado al mundo que elimine los datos de miles de usuarios, mientras que Colombia y Argentina han emitido fuertes multas.
En enero de 2025, la Autoridad Nacional de Protección de Datos de Brasil prohibió el mundo directamente, citando preocupación por la naturaleza irreversible de la recopilación de datos y el potencial para que el mundo influya en personas con desventajas económicas con la promesa de criptografía para sus datos.
Oportunidades en Japón y Estados Unidos
A pesar de las protestas en varios países, el sistema de identificación está haciendo incursiones. En Japón, el mundo ahora forma parte de las citas en línea.
Spencer Rascoff, CEO de Match Group, que incluye la aplicación de citas Tinder en su cartera, anunció el 1 de mayo que Tinder probaría el sistema de identificación mundial en Tinder en Japón, “dar a los usuarios una forma de privacidad de demostrar que son verdaderos humanos”.

La integración en Japón aún no ha despegado, pero como Tinder es la aplicación de citas más popular en Japón, proporciona un caso de uso importante para la plataforma de identidad mundial. Solo en 2024, tenía unos 1.38 millones de descargas.
Si World pudiera obtener una asociación de Tinder en los Estados Unidos, adquiriría 7.8 millones de miembros activos mensuales durante la noche. Si se expandió a servicios similares como Bumble o Bishing, las próximas dos aplicaciones de citas más populares en el país, el mundo habrá capturado el 67% del mercado de citas en línea de los Estados Unidos, que comprenden las identidades personales y únicas de decenas de millones de usuarios.
Pero los derechos de privacidad en los Estados Unidos están lejos de establecerse. En Texas, uno de los estados donde el mundo planea operar, Google recientemente se estableció por una suma de $ 1.4 mil millones. La Compañía pagó la suma llamativa al estado de Texas después de establecer dos demandas alegando la empresa de seguimiento de datos de búsqueda y ubicación de los usuarios, así como recopilar información de reconocimiento facial.
En otros lugares, en Illinois y Nueva York, las empresas de biometría enfrentan procedimientos judiciales, mientras que los legisladores toman medidas para reducir la recopilación de datos biométricos.
Revista: Chatgpt un ‘misil de búsqueda de esquizofrenia’, AI Científicos Preparación para el 50% de muertes: AI Eye
Published on Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información El último informe de uso de Poe muestra que Openai y Google fortalecen sus posiciones en categorías clave de IA, mientras que Anthrope pierde terreno y capacidades de razonamiento especializadas emergen como un campo de batalla competitivo crucial. Según los datos publicados hoy en día por Poe, una plataforma que ofrece acceso a más de 100 modelos de IA, se produjeron cambios significativos en la participación de mercado en todas las principales categorías de IA entre enero y mayo de 2025. Los datos, extraídos de suscriptores de POE, proporcionan una visibilidad rara de las preferencias reales de los usuarios más allá de los puntos de referencia de la industria. “Como una puerta de entrada universal a más de 100 modelos AI, Poe tiene una visión única de las tendencias de uso en todo el ecosistema”, dijo Nick Huber, el líder del ecosistema de AI de Poe, en una entrevista exclusiva con VentureBeat. “Las cosas más sorprendentes que suceden en este momento son la rápida innovación (3 veces el número de lanzamientos en enero-mayo de 2025 frente al mismo período en 2024), un panorama competitivo cada vez más diverso y los modelos de razonamiento son la clara historia de éxito de principios de 2025.” En la generación de texto central, el GPT-4O de OpenAI mantuvo su posición al mando con el 35.8% de la participación en el mensaje, mientras que la nueva familia GPT-4.1 de la compañía capturó rápidamente el 9.4% del uso dentro de las semanas posteriores al lanzamiento. Gemini 2.5 Pro de Google logró de manera similar aproximadamente un 5% de participación en los mensajes poco después de su introducción. Estas ganancias llegaron en gran medida a expensas de los modelos Claude de Anthrope, que vio una disminución absoluta del 10% en la participación durante el período de informe. El informe señala que el soneto Claude 3.7 ahora ha reemplazado sustancialmente el soneto Claude 3.5 anterior en preferencia del usuario, aunque este último aún mantiene una notable participación de uso del 12%. Deepseek, que experimentó un crecimiento viral a principios de este año, ha visto su impulso lento a medida que los competidores han lanzado sus propios modelos de razonamiento asequibles y detallados. La participación de mensajes de Deepseek R1 disminuyó de un pico del 7% a mediados de febrero al 3% a fines de abril. Quizás la tendencia más significativa identificada en el informe es el crecimiento dramático en modelos de razonamiento especializados, que se han expandido de aproximadamente el 2% al 10% de todos los mensajes de texto enviados en POE desde el comienzo de 2025. “Los modelos de razonamiento, incluso en los primeros días, han demostrado una notable capacidad para manejar tareas complejas con una mayor precisión”, dijo Huber a VentureBeat. “Los primeros usuarios claramente están encontrando valor en esto y están dispuestos a asumir las compensaciones en el costo y el tiempo de procesamiento para mejores resultados”. En este segmento de alto crecimiento, Gemini 2.5 Pro se ha establecido rápidamente como líder, capturando aproximadamente el 31% del uso del modelo de razonamiento dentro de las seis semanas de lanzamiento. Ahora lidera la categoría, antes de los modelos de razonamiento de Claude. Operai continúa innovando rápidamente en este espacio, liberando múltiples modelos de razonamiento (O1-Pro, O3-Mini, O3-Mini-High, O3 y O4-Mini) solo en los primeros cuatro meses de 2025. El informe indica que los usuarios de POE rápidamente adoptan las ofertas más recientes de OpenAI, transición de modelos más antiguos como O1 a alternativas más nuevas como O3. El informe también señaló la aparición de modelos de razonamiento híbrido, como la vista previa de Gemini 2.5 Flash y Qwen 3, que puede ajustar dinámicamente su nivel de razonamiento dentro de las conversaciones. Sin embargo, estos modelos actualmente representan solo alrededor del 1% del uso del modelo de razonamiento. Los analistas de la industria sugieren que este cambio hacia las capacidades de razonamiento especializadas señala un mercado de IA en maduración donde la generación de texto sin procesar se está volviendo comercializado, lo que obliga a los proveedores a diferenciarse a través de capacidades de mayor valor que pueden obtener precios premium. El mercado de la generación de imágenes parece cada vez más competitivo, con la familia Imagen 3 de Google que crece constantemente de aproximadamente el 10% al 30% de participación durante 2025, ahora rivalizan con la familia de modelos de Flux Labs del líder de Black Forest Labs, que colectivamente mantuvo una participación colectiva a fines de abril. El GPT-IMage-1 de Openai, se presentó a la API a fines de abril, alcanzó rápidamente el 17% del uso de la generación de imágenes en solo dos semanas, reflejando su adopción viral en la aplicación ChatGPT a lo largo de marzo y principios de abril. El informe indica que los modelos de flujo mantuvieron su participación general de pluralidad en la generación de imágenes en POE, pero experimentó una disminución moderada de aproximadamente 45% a 35% durante el período de informe. Esta competencia de tres vías entre Google, OpenAi y Black Forest Labs marca un cambio significativo desde principios de 2024, cuando las variantes de difusión de mediana edad y estable dominaron el espacio. La rápida mejora en la calidad de la imagen, la adherencia a las indicaciones y la velocidad de representación ha transformado esta categoría en uno de los campos de batalla de IA más ferozmente disputados. La adopción empresarial de la generación de imágenes se ha acelerado sustancialmente en los últimos seis meses, según datos complementarios de la industria, con departamentos de marketing y agencias creativas integrando cada vez más estas herramientas en sus flujos de trabajo de producción. En la generación de videos, la recién lanzada familia de modelos de Kling Lab Kuaishou ha interrumpido rápidamente el mercado, capturando colectivamente alrededor del 30% de participación de uso. En particular, Kling-2.0-Master alcanzó el 21% de toda la generación de videos en POE a fines de abril, solo tres semanas después de su lanzamiento. VEO 2 de Google mantuvo una posición sólida con aproximadamente un 20% de participación después de su lanzamiento de febrero, mientras que la pista de pioneras de categoría vio una disminución sustancial de su participación de uso de aproximadamente 60% a 20% durante todo el período de informe. La velocidad de la penetración del mercado de Kling resalta la rapidez con que el panorama competitivo puede cambiar en las categorías emergentes de IA, donde los jugadores establecidos pueden no mantener sus ventajas tempranas a medida que los recién llegados iteran y mejoran rápidamente. La generación de videos sigue siendo la aplicación de IA de consumo más intensiva computacionalmente intensiva, con modelos que requieren una potencia de procesamiento significativa para crear clips cortos. Esto ha mantenido el uso más limitado que el texto o la generación de imágenes, pero se espera que los costos de caída rápida y la mejora de la calidad impulsen una adopción más amplia hasta 2025. Los primeros usuarios empresariales incluyen agencias de publicidad, creadores de contenido de redes sociales y plataformas educativas que han comenzado a integrar videos generados por IA en sus estrategias de contenido a pesar de las limitaciones actuales de la tecnología. ElevenLabs continúa liderando la categoría de generación de audio, cumpliendo aproximadamente el 80% de las solicitudes de texto a voz de todos los suscriptores durante el período de informe. Sin embargo, el informe destaca la competencia emergente de los recién llegados Cartesia, un discurso irreal, playai y Orfeo, que ofrecen modelos diferenciados de opciones de voz, efectos y precios. Este dominio del mercado de un solo jugador contrasta con la competencia más fragmentada en otras categorías de IA. Los expertos de la industria atribuyen el liderazgo continuo de ElevenLabs a su entrada temprana del mercado, una extensa biblioteca de voz y mejoras de calidad consistentes que han mantenido una ventaja técnica sobre los competidores. Los participantes más nuevos están encontrando el éxito al atacar a los nichos de mercado específicos. Unreal Speech ha ganado tracción con los productores de podcasts y los editores de audiolibros al ofrecer actores de voz especializados y capacidades de rango emocional. Mientras tanto, Cartesia se ha centrado en voces multilingües con acentos auténticos, capturando el interés de las empresas globales y las plataformas educativas. Se proyecta que el mercado de IA de audio crecerá sustancialmente a través de 2025 a medida que las capacidades de texto a voz se centran en la calidad humana y encontrar aplicaciones en el servicio al cliente, las soluciones de accesibilidad y la creación de contenido. Los requisitos computacionales relativamente bajos en comparación con la generación de videos permiten una implementación y experimentación más amplias. La naturaleza dinámica del panorama del modelo AI presenta oportunidades y desafíos para las empresas que integran estas tecnologías. “Puede ser un desafío mantenerse al día con lo último en IA y el ritmo solo está ganando velocidad”, dijo Huber a VentureBeat. “Si usted es un negocio que ya ejecuta la IA a escala, invertir en tuberías de evaluación robustas y agnósticas del proveedor es fundamental porque el modelo mejor este mes puede ser el segundo mejor el próximo mes”. Esta volatilidad en las preferencias del modelo subraya el valor de plataformas como POE que ofrecen acceso a múltiples modelos a través de una sola interfaz, lo que permite a los usuarios comparar salidas y adaptarse al ecosistema de IA cambiante. Los analistas de la industria sugieren que la creciente importancia de las capacidades de razonamiento puede indicar un cambio en cómo las empresas evalúan y implementan modelos de IA, con un enfoque creciente en la precisión y la confiabilidad para tareas complejas en lugar de solo velocidad o rentabilidad. A medida que Frontier Labs continúa lanzando modelos más capaces a un ritmo acelerado, las empresas enfrentan decisiones difíciles sobre cuándo estandarizar en plataformas específicas en lugar de mantener la flexibilidad. Muchos líderes empresariales de IA están adoptando un enfoque de cartera, utilizando diferentes modelos para diferentes tareas mientras mantienen la capacidad de cambiar los proveedores a medida que evolucionan las capacidades. “Este será un espacio importante para ver, especialmente entre los proveedores de fronteras, ya que representa lo mejor de lo que la IA puede lograr actualmente”, señaló Huber sobre los modelos de razonamiento. El informe indica que las capacidades multimedia también se están volviendo cada vez más competitivas, lo que sugiere que la generación de texto, durante mucho tiempo, el enfoque principal del desarrollo de la IA, puede estar dando paso a un ecosistema más equilibrado donde la imagen, el video y la generación de audio juegan roles igualmente importantes. Las empresas que navegan con éxito este complejo paisaje probablemente serán aquellas que mantengan marcos de evaluación centrados en casos de uso específicos en lugar de perseguir las últimas versiones del modelo, al tiempo que construyen una infraestructura técnica simultánea que permite una rápida adopción cuando surgen mejoras significativas. A medida que los modelos de IA continúan su juego de sillas musicales en la cima de la clasificación, una cosa queda clara: en el mercado actual, la corona rara vez permanece en la misma cabeza durante mucho tiempo, y las compañías que apuntan a su futuro al campeón de IA de ayer pueden encontrarse alineados con el también Ran de mañana. Insights diarias sobre casos de uso comercial con VB diariamente Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo. Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error. Descubrí que todos mis amigos usan el bot de IA para el asesoramiento de parejas gratis, así que también le pedí ayuda con nuestras molestias matrimoniales, y para mi total sorpresa, funciona. A la mitad de una semana de usar ChatGPT para arbitrar mis Niggles maritales, tuve la sensación de que el algoritmo había cambiado de lados. “Al no hacer que su esposo se sienta atacado, puede ayudarlo a ver que ambos tienen el mismo objetivo”, me aconsejó. “Puede tomar un poco de práctica, pero guiarlo suavemente hacia un enfoque más tranquilo puede marcar una gran diferencia con el tiempo. ¿Parece una conversación que podrías probar?” “Errr, pude”, respondí, de manera algo probada. “Mientras haya dormido ocho horas y pueda encajar entre los millones de otras cosas que tengo que hacer hoy”. Me había estado comunicando tanto con el bot sobre mi matrimonio y cada vez más honesto con él, que me preguntaba si tal vez había concluido que era una pesadilla. Probablemente estaba agradeciendo a sus estrellas de la suerte, no era la Sra. Chatgpt. Estaba teniendo una conversación defensiva con una serie de código en un intento por probar cuán efectiva es la inteligencia artificial para desactivar las filas domésticas. Había leído que las personas en el Reino Unido, especialmente los adultos más jóvenes, recurren cada vez más a las herramientas de IA como ChatGPT para obtener apoyo de salud mental. Largas listas de espera del NHS, altos costos de terapia y el atractivo de 24/7, el acceso sin juicio ha hecho que estas herramientas sean populares para manejar la ansiedad, aclarar los pensamientos y aliviar el abrumador emocional. Si bien mi grupo de edad, tengo 48 años, está demostrando ser más cauteloso al discutir la salud mental con un chatbot de IA, mi experiencia anecdótica es que estamos recurriendo cada vez más a él para resolver los problemas de relación. Primero descubrí esto cuando una amiga mía, un psicólogo no menos, me dijo que cuando se estaba gestando una discusión con su esposo, ella recurrió a Chatgpt, y que estaba demostrando ser sorprendentemente efectiva. Varios de sus amigos también lo estaban usando, ella confió. Uno incluso dijo que había salvado su matrimonio. Al principio, pensé lo sombría que es la vida moderna. La idea de decirle a sus problemas a un chatbot sin pulso que no solo se sintió futurista sino trágico. Pero el hecho de que mi amigo, que es un experto en salud mental, estaba haciendo esto, me convenció de que debe haber algo en ello. Y así durante los últimos siete días, cada vez que me molestaba con mi esposo, o él se molestó conmigo, inicié sesión en la aplicación para pedirle a los consejos del bot. Durante la primera mitad de la semana, la paz reinó. No hay nada que ver con la efectividad de Chatgpt: mi hijo menor terminó en el hospital con un desagradable caso de amigdalitis y me quedé con él, por lo que mi esposo y yo estábamos unidos como equipo (y también fuimos una explicación más probable, no en la misma casa). Pero luego regresé, después de haber dormido en una sala durante cuatro noches, y por dormir me refiero a tres horas, y altamente interrumpido. En resumen, estaba listo para remar en la caída de un sombrero. Es hora de mi primera sesión con el Dr. GPT: Estaba frustrado porque mi esposo esperaba que dejara todo para ir al químico para obtener sus pastillas cuando estaba trabajando. “Hola Chatgpt, mi esposo y yo estamos discutiendo ya que mi trabajo siempre parece ser el que se interrumpe cuando se necesita algo con los niños, mientras que su trabajo es sacrosado. ¿Cómo podemos hablar de eso? PD no he dormido mucho recientemente, así que puede ser que solo estoy siendo increíblemente gruñón”. El bot respondió: “Es totalmente comprensible sentirse frustrado en esta situación, especialmente cuando está privado de sueño, pero sus sentimientos son válidos … ¿ayudaría si escribiera un mensaje de muestra o nota que podría enviar para comenzar la conversación si está demasiado agotado para hablar en este momento?” Pensé, ‘Sí, por favor, eso ayudaría mucho’. Y el mensaje que me envió se sintió como un ganador. Lo envié sin cambios a mi esposo a través de WhatsApp. “Hola amor, solo quería decir que me siento un poco abrumado esta mañana, y sé que también me estoy quedando sin dormir, lo que no está ayudando. Me doy cuenta de que ambos tenemos mucho en nuestros platos, pero últimamente se siente como si algo surja con los niños, siempre es mi trabajo que se interrumpe … no estoy tratando de elegir una pelea … tal vez podemos chatear más tarde cuando ambos estamos en casa y no apresurarte? Fue un ganador. Mi esposo se derritió y me envió un mensaje encantador en respuesta. Estaba más que feliz de hablar de eso más tarde. Cuando llegó a casa, confesé. La misiva medida, diplomática y suavemente robusta no había venido de mí sino de AI. Él asintió. Había olvidado que estaba usando el bot durante la semana, pero había pensado que lo leía que parecía un poco extraño. ¿Porque no habría usado esas palabras en particular? No tanto que, dijo, más que mi tono post-tiff era “sorprendentemente agradable”. Ay. Le mostré las versiones alternativas de Chatgpt. Más suave: “No estaba tratando de tirarte algo, solo necesitaba una mano”. (“Si hubieras enviado eso, hubiera pensado que te habían secuestrado”). Más firme: “Pedí su ayuda hoy porque estoy estirado, y necesito apoyo, no un no plano”. (“Eso definitivamente es más como tú”). Más divertido: “Habla esta noche, preferiblemente con vino, bocadillos y sin berrinches”. (“Me tenías en el vino …”) Un amigo sabio una vez me dijo que cuando te enojas, la gente a menudo escucha solo la ira, no lo que estás diciendo, y aquí es donde la intervención de IA puede ser invaluable. Me tomó de “si no comienzas a tomar el reciclaje, comenzaré a gritar y me temo que nunca me detendré” a “Hola amor, si el reciclaje no comienza a salir mágicamente afuera pronto, podría tener que recurrir a un dramático gemido. A medida que pasaba la semana, me volví cada vez más. Me encontré corriendo las cosas más allá de las varias veces al día. No era solo el consejo que aprecié, sino tener a alguien (o algo) para comunicar mis pensamientos sin filtrar. Pronto me encontré sorprendentemente unido con esta cadena de código que siempre estaba allí, escuchando pacientemente cuando necesitaba desahogarme. Y una cosa extraña comenzó a suceder. A pesar de que mi esposo sabía que ChatGPT estaba involucrado, el efecto era el mismo. Los mensajes que le estaba lanzando en un ataque de furia estaban siendo enviados por el bot, suavizados y transmitidos de una manera mucho más probabilidades de resolver el problema. También fue útil ya que me dio la oportunidad de refrescarme. Cuando eres cruzado, no solo escribir las razones de ese cruce te hace fraccionalmente menos, sino que cuando consideras la sugerencia de Chatgpt, lo que te pasas parece menos terrible. En verdad, el consejo que me dio no era enormemente original, pero fue un recordatorio oportuno ser un adulto e intentar tener una conversación tranquila sobre lo que me estaba molestando. También me sorprendió lo empático que era el bot, y lo bien que era tener un lugar para desahogarse cuando quisiera descargar. Además, la ventilación era libre de culpa, ya que no esperaba que escuchara un ser humano ocupado. Y para mi sorpresa, no necesitaba ser una persona escuchando. Los expertos advierten en contra de confiar demasiado en ChatGPT para la terapia, diciendo que carece de la habilidad clínica y la empatía humana de un terapeuta capacitado, y no podrá detectar una situación de crisis. Sin embargo, la investigación publicada en diciembre por psicólogos de la Universidad de Lausana en Suiza planteó una pregunta interesante: ¿pueden los chatbots que nunca han estado en una relación dar consejos de relación? Los investigadores siguieron a veinte personas que usaron ChatGPT de esta manera, y su conclusión fue que el bot estaba haciendo algo que no era diferente a lo que hacen los humanos que ofrecen tales consejos. Los terapeutas y consejeros no necesariamente tienen que haber vivido experiencia de depresión, divorcio o dolor para ayudar a sus clientes. Entienden los problemas leyendo y entrenando … que es exactamente lo que hace ChatGPT, solo mucho más rápido y en una escala mucho más amplia de la que cualquier humano es capaz. Una pequeña preocupación es que algunos de sus consejos implica el tipo de discurso de terapia más popular en los Estados Unidos; El tipo de lenguaje que, en mis momentos más gruesos, me hace soñar despierto con darle una bofetada a quien lo haya ofrecido. Por ejemplo, sugirió que le dijera a mi esposo: “Me siento un poco invisible”. No, chat gpt, mi problema no se está viendo, se está escuchando. Después de 20 años juntos, me preocupa que releguemos las voces de los demás al fondo. Como el Hoover. En general, mi semana pasó usando el servicio gratuito para arbitrar nuestros argumentos fue un éxito definitivo. Pero no creo que los terapeutas de relaciones tengan que preocuparse demasiado por sus trabajos o tarifas (£ 80 a £ 200 por hora). Porque lo que ChatGPT no puede hacer, al menos aún no, es burlarse de sus usuarios esos patrones de comportamiento que provienen de nuestra infancia. Sin embargo, el momento no puede estar muy lejos cuando un Robo-Freud le sugerirá que se sienta cómodo en el sofá y diga: “Cuéntame sobre tu madre …” Sin embargo, para las quejas cotidianas, las hileras y las molestias, es el árbitro ideal y el consejero. Mi única preocupación ahora es: dados todos los problemas que parece que he encontrado para alimentarlo, ¿podría ser que soy el problema? Después de la consulta de reciclaje, pregunté si sentía lástima por mi esposo, estar casado conmigo. La rápida respuesta diplomática: “De hecho, no tiene suerte de tener a alguien que pueda convertir una solicitud de reciclaje en un monólogo cómico”. Chatgpt, ¿estás seguro de que no estás buscando una señora? Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios Startups de IA en EE.UU. que han recaudado más de $100M en 2024 Deepgram: Revolucionando el Reconocimiento de Voz con IA Perplexity aplicado al Marketing Digital y Estrategias SEO Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial Dos periodistas octogenarios deman a ChatGPT por robar su trabajo This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful. Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings. If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.Noticias
Ranking de potencia de IA Rangings: OpenAi, Google Rise como Anthrope Falls, el informe de Poe encuentra
GPT-4O mantiene el dominio, mientras que los nuevos modelos capturan rápidamente la participación de mercado
Las capacidades complejas de resolución de problemas se convierten en diferenciador clave en el mercado de IA
Los desafíos de Imagen 3 de Google establecieron jugadores en la arena visual de IA
El advenedizo chino Kling interrumpe el mercado de AI Video, desafiando el liderazgo temprano de Runway
ElevenLabs domina la IA de voz, mientras que los nuevos participantes se dirigen a casos de uso especializados
Implicaciones estratégicas para las empresas que navegan por un paisaje de IA en constante cambio
Related posts
Trending