Connect with us

Noticias

Probé los usos sugeridos por Google para Gemini Live y uno se destacó de inmediato.

Published

on

Sabrina Ortiz/ZDNET

Un asistente de voz parecido a un humano que te habla suena como algo sacado de una película de ciencia ficción. Sin embargo, la tecnología ya está aquí, con asistentes de voz impulsados ​​por IA como Gemini Live, fácilmente accesibles desde su teléfono. Entonces, ¿cómo pueden estos asistentes ayudarle en su vida diaria?

Aunque hablar con alguien es una experiencia catártica, chatear con IA no logra exactamente el mismo objetivo, ya que sabes que estás hablando con un robot. Como resultado, a pesar de estar fascinado por lo bueno que es Gemini Live para comprender lo que digo, a menudo me preguntaba si sería útil.

Además: este truco absurdamente simple desactiva la IA en los resultados de búsqueda de Google

Para ayudar, Google ha publicado una lista de cinco formas en que Gemini Live puede facilitar la vida de los usuarios y probé cada una de ellas. A continuación, puede encontrar su lista, clasificada según los que encontré más y menos útiles, así como un resumen de mis experiencias.

1. Crear una lista de tareas pendientes

Una de mis formas favoritas de usar ChatGPT es desarrollar listas básicas, como qué comprar en el supermercado y qué llevar de vacaciones. Normalmente, cuando uso esta función, escribo mi solicitud en el chatbot. Sin embargo, con Gemini Live o el modo de voz avanzado, sólo tienes que preguntar en la conversación y hacer que el asistente genere tu lista.

Además: Los mejores chatbots de IA de 2024: ChatGPT, Copilot y alternativas dignas

La mayor ventaja de este enfoque es que, de manera similar a tener una conversación normal con un humano, puedes detenerte y pedirle a la IA que te dé más detalles, agregue algo más, reinicie, elimine algo o adapte la lista más a tu gusto. Dependiendo de su situación, el bot sugerirá cosas para agregar u otras listas de tareas pendientes.

Por ejemplo, mi primer mensaje fue: “Ayúdame a hacer una lista de tareas pendientes para el Día de Acción de Gracias”. La respuesta del robot fue una sugerencia de empezar a hacer una lista de compras. Chatear así es una interacción más fluida y lleva menos tiempo ya que no estás pegado a tu computadora portátil o teclado. Entonces, estoy de acuerdo con Google en que este es un buen caso de uso y creo que es el más práctico.

2. Ejercicios de respiración dirigida

Aunque este caso de uso sugerido obtuvo el puesto número dos, quedó en segundo lugar de cerca. En el ajetreo y el bullicio de la vida, la clave es encontrar tiempo para dar un paso atrás y relajarse o priorizar la atención plena. Por esa razón, la mayoría de las mañanas comienzo mis días con una sesión de afirmación, que incluye ejercicios de respiración dirigidos por alguien en YouTube. Sin embargo, estas experiencias no se adaptan a mí y pueden volverse repetitivas; ahí es donde Gemini Live puede ayudar.

Además: Gemini Advanced de Google tiene una función ChatGPT muy útil, pero ¿cómo se compara?

Le pregunté al robot: “¿Puedes guiarme con afirmaciones para el éxito de la mañana?” Sin perder el ritmo, la IA generó algunas afirmaciones que podía dictar para comenzar.

Luego, para continuar con la sesión, puedes decir algo como “¿Puedes darme un poco más?”. o pídele que te dé un tipo diferente de afirmación. Lo mismo ocurre con pedir ejercicios de respiración. El robot generará una rutina de respiración atendida. Como alguien que confía en la atención plena guiada, este enfoque parece un punto de inflexión.

Sin embargo, esa es la buena noticia, y el resto de los casos de uso van cuesta abajo a partir de aquí.

3. Ensayar una presentación

Algunas cosas pueden mejorar objetivamente una presentación, incluido el ritmo al que habla, su concisión y la participación de su guión. Por ese motivo, Gemini Live puede escuchar tu presentación y aconsejarte cómo mejorar. También puede resultar útil ensayar en la privacidad de su propio espacio sin tener que utilizar a otro ser humano para deshacerse de los nervios.

Además: la IA acaba de darnos la despedida de Star Trek que siempre quisimos: mírala aquí

Sin embargo, la experiencia me pareció un poco antinatural. Sigo pensando que un humano puede dar mejores consejos, ya que otros factores que afectan una presentación incluyen la postura, las expresiones faciales, el movimiento y, lo más importante, la presentación misma. Si tienes una plataforma de diapositivas terrible, no hay mucho que pueda salvarte. Si su objetivo es mejorar el habla, entonces esta característica está bien, pero eso es todo.

4. Juego de roles

Como uno de los casos de uso, Google anima a los usuarios a aprovechar Gemini Live para tener una conversación simulada y difícil. Todo lo que un usuario tiene que hacer es explicar brevemente la situación a Gemini Live e iniciar la conversación, recibiendo comentarios a lo largo del camino.

Para mi caso, dije: “¿Puedes ayudarme a representar una situación en la que le digo a mi mejor amiga que no me gustan sus zapatos?” El robot me preguntó su nombre y me dio una oración de muestra que podría usar para decírselo, pero no creo que la conversación hubiera terminado bien si la hubiera usado.

Además: Cómo utilizar ChatGPT para digitalizar tus notas escritas a mano de forma gratuita

“Muy bien, aquí tienes una forma de manejar esta situación: Hola Melissa, ¡esos zapatos son realmente otra cosa! Nunca antes había visto un estilo así”, dijo Gemini Live.

Si mi objetivo era la agresividad pasiva, el robot lo logró. Cuando respondí: “¿No crees que eso es malo?”, la IA respondió:

Tienes razón; Puede que suene un poco sarcástico. ¿Qué tal esto: “Mel, noté tus zapatos nuevos. Son realmente atrevidos y llamativos”. También podrías preguntarle dónde los consiguió. De esta manera, los reconoces sin dar tu opinión sobre si te gustan o no.

Sin embargo, corregir el enfoque anula el propósito del juego de roles. Por lo general, juegas con un amigo cuando no sabes qué decir o hacer. Preferiría utilizar a un humano en esta situación porque la interacción es más natural y me aseguro de recibir el mejor consejo.

5. Elegir qué ponerse

Gemini Live aún no tiene capacidades multimodales (donde puede ver su entorno). Por ese motivo, este caso de uso finaliza en último lugar. En mi opinión, es completamente inútil. Además, para que el robot te ayude a elegir tu guardarropa, debes describir tu vestimenta en detalle y se deben considerar muchos factores diferentes, como la textura, los patrones y los cortes, que en realidad solo se pueden describir visualmente.

Como acceder

Si alguno de estos casos de uso le llamó la atención, puede acceder a Gemini Live de forma gratuita a través de la aplicación Gemini tanto en iOS como en Android. Una vez que haya descargado la aplicación, inicie sesión en su cuenta de Google, haga clic en el ícono de forma de onda y comience a chatear.

Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

Actualizaciones de ChatGPT, robots de almacén y agentes especiales: lanzamientos de IA de esta semana

Published

on

Cada semana, Quartz recopila lanzamientos de productos, actualizaciones y noticias sobre financiación de empresas y empresas emergentes centradas en la inteligencia artificial.

Esto es lo que está sucediendo esta semana en la industria de la IA en constante evolución.

Actualización de escritura y modo de voz avanzado de ChatGPT

El logotipo de OpenAI se ve en un teléfono móvil frente a una pantalla de computadora que muestra el resultado de ChatGPT. – Ilustración: Michael Dwyer (AP)

OpenAI anunció esta semana que está comenzando a implementar el modo de voz avanzado en la versión del navegador web de ChatGPT. Los usuarios pagos de ChatGPT Plus, Team, Enterprise y Edu podrán iniciar una conversación en tiempo real en el sitio web de ChatGPT.

La startup de IA también anunció que actualizó la capacidad de escritura creativa de su modelo GPT-4o para tener una “escritura más natural, atractiva y personalizada”. El modelo actualizado también puede funcionar mejor con archivos cargados, dijo OpenAI.

La familia de modelos Tülu 3 del Instituto Allen para la IA

Exhibición de la nueva familia de modelos del Instituto Allen de IA, Tülu 3. - Imagen: Instituto Allen de IA

Exhibición de la nueva familia de modelos del Instituto Allen de IA, Tülu 3. – Imagen: Instituto Allen de IA

El Instituto Allen de IA anunció esta semana su familia Tülu 3 de modelos abiertos y optimizados. El proceso de ajuste fino, o post-entrenamiento, refina los modelos para realizar tareas específicas.

A través de Tülu 3, los desarrolladores e investigadores pueden encontrar conjuntos de datos de código abierto, recetas de entrenamiento de modelos, códigos y marcos de evaluación. Los modelos varían entre 8 mil millones y 70 mil millones de parámetros, o las variables que un modelo aprende de los datos de entrenamiento que guían su capacidad para hacer predicciones, según Ai2.

Serie C de 130 millones de dólares de Enveda para medicina asistida por IA

Viswa Colluru, directora ejecutiva de Enveda - Foto: Viswa Colluru

Viswa Colluru, directora ejecutiva de Enveda – Foto: Viswa Colluru

Enveda, una empresa de biotecnología que utiliza IA para convertir compuestos naturales en nuevos medicamentos, anunció esta semana una ronda de financiación Serie C de 130 millones de dólares con exceso de suscripción. La ronda fue liderada por Kinnevik y FPV, y eleva la financiación total de Enveda a 360 millones de dólares.

La financiación ayudará a la empresa a avanzar en su cartera de diez candidatos a fármacos en desarrollo. Enveda está construyendo una plataforma impulsada por IA llamada “secuenciador” “que combina datos metabolómicos con aprendizaje automático y experimentos biológicos de alto rendimiento para responder dos preguntas fundamentales de cualquier muestra natural a escala: (1) ¿Cuáles son las moléculas? y ( 2) ¿Qué hacen?”, dijo la empresa.

“Algunos de los mayores avances farmacéuticos del mundo se han derivado de sólo el 0,1% de la química de la naturaleza”, dijo Viswa Colluru, director ejecutivo de Enveda, en un comunicado. “Desarrollamos nuestra plataforma para expandir rápidamente el acceso a la química de la naturaleza para encontrar terapias a aproximadamente cuatro veces la velocidad, y ya está brindando resultados en forma de una línea profunda y diferenciada. Esta financiación nos ayudará a hacer avanzar a múltiples candidatos hacia catalizadores clínicos interesantes durante el próximo año, confirmando nuestra visión rectora de que la química de la vida es una excelente fuente de nuevos medicamentos”.

Serie B de 50 millones de dólares de Pickle Robot para robots de producción

Un robot Pickle recogiendo una caja de 50 libras. - Foto: Compañía de robots Pickle

Un robot Pickle recogiendo una caja de 50 libras. – Foto: Compañía de robots Pickle

Pickle Robot, que desarrolla sistemas de automatización robótica para la descarga de camiones, anunció esta semana una ronda de financiación Serie B de 50 millones de dólares. La compañía, que se autodenomina pionera en IA física, también anunció que seis clientes ordenaron más de 30 robots de producción en el tercer trimestre para su implementación a principios de 2025. La tecnología de IA física de Pickle Robot combina un sistema de visión con modelos básicos de IA generativa entrenados en millones de datos reales de operaciones logísticas y de almacén.

“Los clientes de Pickle Robot están experimentando el valor de la IA física aplicada a un proceso logístico común que desafía miles de operaciones todos los días”, dijo AJ Meyer, director ejecutivo y fundador de Pickle Robot, en un comunicado. “La nueva financiación y nuestras relaciones estratégicas con los clientes permiten a Pickle trazar el futuro de la robótica de la cadena de suministro, ampliar rápidamente las capacidades de nuestros productos principales y hacer crecer nuestro negocio para ofrecer un enorme valor al cliente ahora y en el futuro”.

Inversión de capital de 55 millones de dólares de Lightning AI

William Falcon, director ejecutivo de Lightning AI - Foto: Lightning AI

William Falcon, director ejecutivo de Lightning AI – Foto: Lightning AI

Lightning AI, la compañía detrás del marco de aprendizaje profundo PyTorch Lightning, anunció esta semana una inversión de capital de 50 millones de dólares que incluía a Nvidia (NVDA) y JP Morgan (JPM).

PyTorch Lightning ha recibido más de 160 millones de descargas desde que se lanzó Lightning AI hace un año. Lightning AI combina docenas de herramientas de desarrollo de IA independientes en una plataforma de múltiples nubes donde los desarrolladores pueden crear, entrenar e implementar modelos de IA y alojar aplicaciones de IA de forma segura.

“Construir su propia plataforma de IA hoy es como construir su propio Slack: es complejo, costoso y no es fundamental para su negocio”, dijo William Falcon, fundador y director ejecutivo de Lightning AI, en un comunicado. “El valor para las empresas radica en sus datos, conocimiento del dominio y modelos únicos, no en el mantenimiento de la infraestructura de IA. Tenemos miles de desarrolladores entrenando e implementando modelos por sí solos a una escala que habría requerido equipos de desarrolladores sin Lightning”.

Agentes reflexivos de IA para la gestión del ciclo de ingresos de la atención sanitaria

Agentes de IA de Thoughtful AI para RCM - Imagen: Thoughtful AI

Agentes de IA de Thoughtful AI para RCM – Imagen: Thoughtful AI

Thoughtful AI lanzó esta semana sus agentes de IA especializados para la gestión del ciclo de ingresos en el sector sanitario. Los nuevos agentes de la empresa de transformación del ciclo de ingresos impulsados ​​por IA incluyen CODY para codificación y revisión de notas, y CAM para procesamiento de reclamaciones.

“Nuestro equipo de agentes de IA convierte a RCM de un cuello de botella en una potencia, utilizando IA y automatización para abordar tareas tediosas y que requieren mucho tiempo para que los equipos de atención médica puedan optimizar los ingresos y centrarse en lo más importante: los pacientes”, Alex Zekoff, cofundador. y director ejecutivo de Thoughtful AI, en un comunicado.

Plataforma de creación de anuncios de vídeo para juegos de Reforged Labs

Anuncios de IA de Reforged Labs para estudios de juegos móviles. - Imagen: Laboratorios reformados

Anuncios de IA de Reforged Labs para estudios de juegos móviles. – Imagen: Laboratorios reformados

Reforged Labs, un servicio de creación de videos impulsado por inteligencia artificial para estudios de juegos móviles, lanzó esta semana su servicio de publicidad en video impulsado por inteligencia artificial que, según afirma, puede ofrecer anuncios personalizados y rentables en menos de 24 horas. El motor de inteligencia artificial patentado de la startup fue entrenado con miles de anuncios de juegos, dijo Reforged Labs.

“Queremos ayudar a nivelar el campo de juego para los estudios de juegos con recursos limitados”, dijo en un comunicado Robert Huynh, director ejecutivo y cofundador de Reforged Labs. “Con nuestra solución creativa de servicio completo diseñada para el marketing de juegos, los estudios pueden beneficiarse de plantillas de anuncios probadas y producción y edición impulsadas por IA, todo sin largos resúmenes ni grandes presupuestos”.

Para las últimas noticias, Facebook, Gorjeo e Instagram.

Continue Reading

Noticias

La demanda de Elon Musk podría ser el menor de los problemas de OpenAI: su conversión planificada costará una fortuna

Published

on

Una buena regla general en la vida es nunca ponerse del lado malo de un centibillonario feliz con los litigios y con un Rolodex de firmas de abogados a su entera disposición.

Pero la segunda demanda de Elon Musk contra OpenAI, a quien hizo donaciones caritativas por un total de más de 50 millones de dólares, puede ser la menor de sus preocupaciones inmediatas. Hay una autoridad que todavía tiene mayores recursos a su alcance que el hombre propuesto para ser el primer billonario del mundo: el gobierno.

Y puede hacer que la vida de OpenAI sea un infierno si decide investigar y procesar cualquier paso en falso mientras el creador de ChatGPT intenta deshacerse de su caparazón sin fines de lucro y emerger como una corporación de beneficio público capaz de algún día enriquecer a sus accionistas.

De hecho, el Estado es realmente la única entidad capaz de implementar medidas legales para garantizar que las organizaciones sin fines de lucro no engañen al sistema. Y en cuestión de semanas las palancas del poder del gobierno estarán en manos de un aliado cercano de Musk, Donald Trump.

“Si yo fuera OpenAI y me preguntaras qué me debería preocupar más”, dice Luís Calderón Gómez, profesor asistente de la Universidad Yeshiva especializado en política fiscal Fortuna“No sería la demanda de Musk, sería la conversión”.

En una declaración a Fortunael presidente de OpenAI, Bret Taylor, prometió que la junta directiva de la organización sin fines de lucro cumpliría con su obligación fiduciaria garantizando que la empresa permanezca bien posicionada para cumplir su misión declarada.

“Si bien nuestro trabajo continúa mientras continuamos consultando a asesores financieros y legales independientes”, dijo, “cualquier reestructuración potencial garantizaría que la organización sin fines de lucro continúe existiendo y prosperando, y reciba el valor total por su participación actual en OpenAI con fines de lucro con una capacidad mejorada para llevar a cabo su misión”.

La filial con fines de lucro de Open-AI ya está valorada en 157 mil millones de dólares

Lo que está en juego es inusualmente alto para el sector de las organizaciones sin fines de lucro estadounidenses, que de otro modo estaría adormecido y que se estima representa 3,3 billones de dólares de la producción económica anual de Estados Unidos. A pesar de su importancia como empresa detrás del auge de la inteligencia artificial generativa, una presentación de OpenAI al IRS esta semana revela cuán poco valor se asigna realmente a la organización sin fines de lucro.

Gracias a la fiebre del oro provocada por el lanzamiento comercial de ChatGPT hace casi dos años, una reciente ronda de recaudación de fondos valoró a OpenAI Global, LLC, la empresa operadora, en la asombrosa cifra de 157 mil millones de dólares. A principios de este año, uno de los principales expertos de Asia en este campo, Kai-fu Lee, incluso sugirió que podría hacer historia como la primera empresa privada con un valor de 1 billón de dólares.

Para todos los efectos, opera como una empresa normal, contando con Microsoft junto con Khosla Ventures y el cofundador de LinkedIn, Reid Hoffman, como principales inversores.

Sin embargo, su accionista mayoritario, OpenAI, Inc., está clasificado como una corporación 501(c)(3) según el código tributario del Servicio de Impuestos Internos (IRS). Quedó exento de contribuir al erario público después de comprometerse a “promover la inteligencia digital de la manera que más probablemente beneficie a la humanidad en su conjunto, sin las limitaciones de la necesidad de generar un retorno financiero”.

El sector de la atención sanitaria abrió el camino para las organizaciones sin fines de lucro híbridas

Esta estructura corporativa híbrida aparentemente extraña, adoptada por OpenAI en marzo de 2019, fue el resultado principalmente de los desarrollos en el sector de la salud.

Para evitar que cerraran clínicas con dificultades financieras, lo que podría cortar el suministro de servicios médicos en su comunidad local, en 1998 el IRS comenzó a permitirles asociarse con competidores con fines de lucro siempre que la organización sin fines de lucro mantuviera el control final.

La estructura corporativa de OpenAI

Cortesía de OpenAI

Sin embargo, el fallo sigue siendo controvertido. En agosto del año pasado, Elizabeth Warren se unió a tres de sus colegas del Senado en un esfuerzo bipartidista para acabar con esta práctica después de que un estudio reciente descubriera que tres de cada cuatro clínicas sin fines de lucro gastaban menos en atención caritativa de lo que recibían en exenciones fiscales.

Como fundador y director ejecutivo de la consultora sin fines de lucro Altruist, Donald Summers sostiene que los problemas de gobernanza y la falta de un escrutinio adecuado se deben en parte a que el público en general trabaja bajo una noción anticuada e ingenua del sector caritativo.

“La gente piensa que las organizaciones sin fines de lucro son comedores de beneficencia y refugios para personas sin hogar. Pueden ser organizaciones poderosas, multimillonarias, que pueden poseer subsidiarias con fines de lucro y endeudarse”, dice Donald Summers, fundador y director ejecutivo de Altruist. Fortuna. “Simplemente no se pueden comprar ni vender en beneficio de particulares”.

Como una organización benéfica de la selva tropical que decide talar el Amazonas

El director ejecutivo de OpenAI, Sam Altman, ha atribuido sus planes de convertirse en una organización con fines de lucro (probablemente el próximo año según Fortunafuentes) como una evolución orgánica de su estructura jurídica en el tiempo. Como las donaciones no lograron seguir el ritmo de los crecientes costos para entrenar su red neuronal, la gerencia decidió que la única opción que quedaba para cumplir su misión caritativa era comenzar a recaudar dinero privado.

Desde entonces, sin embargo, ha sido más prudente con las investigaciones que publica, sin información disponible públicamente que revele todas las capacidades técnicas de su modelo GPT-4, lanzado por primera vez en 2023. También ha firmado acuerdos exclusivos con socios comerciales que los expertos decir, va en contra de los ideales que dice defender.

“Es ilegal y OpenAI es un castillo de naipes”, criticó Musk, quien cortó todos los vínculos con la empresa hace cuatro años. Describió los planes de OpenAI de renunciar a su condición de organización sin fines de lucro como una traición shakesperiana y los comparó con donar dinero a una organización benéfica para salvar la selva amazónica solo para que decidiera talar árboles para obtener madera era una idea más rentable.

Si bien el propósito principal de una organización sin fines de lucro debe ser brindar un beneficio a la sociedad en su conjunto, eso significa, por extensión, que la búsqueda de motivos capitalistas no tiene por qué estar en conflicto con su misión.

“No son necesariamente excluyentes entre sí”, dice Darryll Jones, profesor de derecho en la Universidad Florida A&M y coeditor del Blog de profesores de derecho sin fines de lucro, en una entrevista con Fortuna.

Y cuando lo son, añade, esto no tiene por qué ser un problema, siempre y cuando el objetivo de la organización sin fines de lucro tenga prioridad. “Esa es probablemente una de las razones por las que no hemos escuchado [publicly] sobre un fiscal general o el IRS desafiando OpenAI”.

“No creo que sentemos un precedente aquí”

El argumento ha sido que el cambio de OpenAI en la estructura corporativa podría dar a otras startups la misma idea, en otras palabras, con el lanzamiento como organizaciones sin fines de lucro exentas de impuestos, solo para convertirse en propiedad normal una vez que su modelo de negocio haya sido resuelto y se pueda lanzar un producto comercialmente exitoso. lanzado.

Hablando en marzo a principios de este año, Altman refutó la idea de que sus acciones incentivarían efectivamente a las empresas a jugar rápido y libremente con el código tributario a costa del público.

“Desaconsejaría fuertemente a cualquier startup que estuviera pensando en comenzar como una organización sin fines de lucro y agregar una rama con fines de lucro más adelante”, dijo. “No creo que sentemos un precedente aquí. Si hubiéramos sabido lo que iba a pasar, también lo habríamos hecho”.

La transición es complicada porque implica privatizar lo que alguna vez fue creado para el bien público. Cualquier error puede dar lugar a cuantiosas obligaciones tributarias si se viola la regla de oro de que los activos deben intercambiarse dólar por dólar.

“El principio básico es que la entidad transformadora tiene que pagar al sector caritativo una cantidad equivalente a lo que retira”, dice a esta publicación Robert Weissman, presidente de un grupo de defensa de la responsabilidad corporativa, Public Citizen. “Pero en este caso no es obvio cuál es el valor de OpenAI sin fines de lucro”.

Errar por el lado generoso

Según su declaración de impuestos 990 para el año fiscal 2023 que acaba de presentar este mes, sus activos netos sin fines de lucro cotizan por valor de unos miserables 21 millones de dólares.

Ese es el mínimo absoluto que las empresas con fines de lucro tendrían que ofrecer al Estado a cambio, pero sigue siendo una gota en el océano en comparación con la valoración de 157 mil millones de dólares de las empresas con fines de lucro.

Weissman sostiene, sin embargo, que cualquier conversión significa que el público contribuyente también debe ser compensado por el pérdida del controluna vez que la empresa es propiedad de accionistas.

Estima que la prima por renunciar a esto debería valer el 20% de la entidad con fines de lucro sobre la que tiene la última palabra. En otras palabras, desembolsarían más de 30 mil millones de dólares.

Estos fondos que OpenAI Global LLC tendría que pagar permanecerán legítimamente en manos del público y luego podrán usarse para la donación de una nueva fundación benéfica, posiblemente dedicada a la seguridad de la IA, por ejemplo.

Por ahora, sin embargo, sigue siendo un juego de adivinanzas que los banqueros de inversión tendrán que resolver en última instancia en una evaluación de un tercero. Jones, de Florida A&M, cree que OpenAI y Microsoft tendrán cuidado de pecar de generosos.

Cualquier intento potencial de estafar a los contribuyentes podría desencadenar una investigación y una posible demanda por parte del gobierno que limita la capacidad de gestión y consume tiempo y recursos, algo que el dúo no puede permitirse en la carrera con competidores de rápido movimiento como xAI de Musk.

“Después de que OpenAI hablara de lo excelente que es su tecnología, les resultará difícil reducir el precio”, argumenta Jones.

Un montón de abogados bien pagados golpeándose la cabeza

Después de años de avanzar tanto en tecnología como en legislación tributaria, la conversión resuelve un tema espinoso y es el riesgo de que ya esté incumpliendo sus obligaciones sin fines de lucro. Weissman, de Public Citizen, ha escrito repetidamente al fiscal general de California, donde se encuentra su sede, para presionarlo sobre este mismo tema.

Delaware, domicilio legal de OpenAI, parece estar tomando medidas iniciales para garantizar que no se engañe a los contribuyentes. axios informó recientemente que la fiscal general del estado, Kathleen Jennings, había presentado una solicitud oficial a la empresa para obtener información adicional con respecto a su plan de conversión.

“Es importante que mi oficina tenga la oportunidad de revisar los términos de cualquier transacción de este tipo antes de su consumación”, escribió Jennings en octubre. “Los actuales beneficiarios de OpenAI tienen interés en garantizar que los activos caritativos no se transfieran a intereses privados sin la debida consideración”.

La oficina de Delaware AG no respondió a una solicitud de Fortuna para hacer comentarios, pero su contraparte en la oficina de California ha dicho que, en principio, no comenta sobre la existencia o el progreso de una investigación.

Gómez está de acuerdo con la evaluación de Altman de que OpenAI no creará un modelo de negocio completamente nuevo para las nuevas empresas debido a la facilidad con la que podría entrar en conflicto con el gobierno si los funcionarios sienten que se ha engañado al erario público.

“No hay muchas maneras de hacer esto sin incurrir en una gran obligación tributaria y sin ser demandado por el estado, ya sea Delaware, California, el Departamento de Justicia o el IRS”, dice. Fortuna. “Así que estoy muy seguro de que hay muchos abogados a los que se les paga lote de dinero para trabajar en esto ahora mismo”.

Continue Reading

Noticias

Investigadores chinos presentan LLaVA-o1 para desafiar el modelo o1 de OpenAI

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


El modelo o1 de OpenAI ha demostrado que el escalado del tiempo de inferencia (usar más computación durante la inferencia) puede mejorar significativamente las capacidades de razonamiento de un modelo de lenguaje. LLaVA-o1, un nuevo modelo desarrollado por investigadores de varias universidades de China, lleva este paradigma a los modelos de lenguaje de visión (VLM) de código abierto.

Los primeros VLM de código abierto suelen utilizar un enfoque de predicción directa, generando respuestas sin razonar sobre el mensaje y los pasos necesarios para resolverlo. Sin un proceso de razonamiento estructurado, son menos eficaces en tareas que requieren razonamiento lógico. Las técnicas de estimulación avanzadas, como las de cadena de pensamiento (CoT), donde se anima al modelo a generar pasos de razonamiento intermedios, producen algunas mejoras marginales. Pero los VLM suelen producir errores o alucinar.

Los investigadores observaron que un problema clave es que el proceso de razonamiento en los VLM existentes no es suficientemente sistemático y estructurado. Los modelos no generan cadenas de razonamiento y muchas veces se quedan estancados en procesos de razonamiento donde no saben en qué etapa se encuentran y qué problema específico deben resolver.

“Observamos que los VLM a menudo inician respuestas sin organizar adecuadamente el problema y la información disponible”, escriben los investigadores. “Además, con frecuencia se desvían de un razonamiento lógico para llegar a conclusiones, en lugar de presentar una conclusión prematuramente y luego intentar justificarla. Dado que los modelos de lenguaje generan respuestas token por token, una vez que se introduce una conclusión errónea, el modelo generalmente continúa por un camino de razonamiento defectuoso”.

Razonamiento de varias etapas

OpenAI o1 utiliza escala de tiempo de inferencia para resolver el problema de razonamiento sistemático y estructurado y permite que el modelo haga una pausa y revise sus resultados a medida que resuelve gradualmente el problema. Si bien OpenAI no ha publicado muchos detalles sobre el mecanismo subyacente de o1, sus resultados muestran direcciones prometedoras para mejorar las capacidades de razonamiento de los modelos fundamentales.

Inspirándose en o1, los investigadores diseñaron LLaVA-o1 para realizar un razonamiento etapa por etapa. En lugar de generar una cadena de razonamiento directa, LLaVA-o1 divide el proceso de razonamiento en cuatro etapas distintas:

Resumen: El modelo primero proporciona un resumen de alto nivel de la pregunta, delineando el problema central que debe abordar.

Subtítulo: Si hay una imagen presente, el modelo describe las partes relevantes, centrándose en elementos relacionados con la pregunta.

Razonamiento: A partir del resumen, el modelo realiza un razonamiento lógico y estructurado para derivar una respuesta preliminar.

Conclusión: Finalmente, el modelo presenta un resumen conciso de la respuesta basada en el razonamiento anterior.

Sólo la etapa de conclusión es visible para el usuario; las otras tres etapas representan el proceso de razonamiento interno del modelo, similar al rastro de razonamiento oculto de o1. Este enfoque estructurado permite a LLaVA-o1 gestionar su proceso de razonamiento de forma independiente, lo que conduce a un mejor rendimiento en tareas complejas.

“Este enfoque estructurado permite al modelo gestionar de forma independiente su proceso de razonamiento, mejorando su adaptabilidad y rendimiento en tareas de razonamiento complejas”, escriben los investigadores.

Búsqueda de haz a nivel de etapa (derecha) versus otras técnicas de escalamiento de tiempo de inferencia Fuente: arXiv

LLaVA-o1 también introduce una novedosa técnica de escalado de tiempo de inferencia llamada “búsqueda de haz a nivel de etapa”. La búsqueda de haces a nivel de etapa genera múltiples resultados candidatos en cada etapa de razonamiento. Luego selecciona al mejor candidato en cada etapa para continuar el proceso de generación. Esto contrasta con el enfoque clásico del mejor de N, en el que se solicita al modelo que genere múltiples respuestas completas antes de seleccionar una.

“En particular, es el diseño de salida estructurado de LLaVA-o1 lo que hace que este enfoque sea factible, permitiendo una verificación eficiente y precisa en cada etapa”, escriben los investigadores. “Esto valida la eficacia de la producción estructurada para mejorar la escala de tiempo de inferencia”.

Entrenamiento LLaVA-o1

Datos de entrenamiento de Llama o1
Los datos de entrenamiento de LLaVA-o1 están anotados con GPT-4o Fuente: arXiv

Para entrenar LLaVA-o1, los investigadores compilaron un nuevo conjunto de datos de alrededor de 100.000 pares de imagen-pregunta-respuesta obtenidos de varios conjuntos de datos VQA ampliamente utilizados. El conjunto de datos cubre una variedad de tareas, desde la respuesta a preguntas de varios turnos hasta la interpretación de gráficos y el razonamiento geométrico.

Los investigadores utilizaron GPT-4o para generar procesos de razonamiento detallados de cuatro etapas para cada ejemplo, incluidas las etapas de resumen, título, razonamiento y conclusión.

Luego, los investigadores ajustaron Llama-3.2-11B-Vision-Instruct en este conjunto de datos para obtener el modelo LLaVA-o1 final. Los investigadores no han publicado el modelo, pero planean publicar el conjunto de datos, llamado LLaVA-o1-100k.

LLaVA-o1 en acción

Los investigadores evaluaron LLaVA-o1 en varios puntos de referencia de razonamiento multimodal. A pesar de haber sido entrenado en solo 100.000 ejemplos, LLaVA-o1 mostró mejoras de rendimiento significativas con respecto al modelo Llama base, con un aumento promedio en la puntuación de referencia del 6,9%.

Resultados LLaVA-o1
LLaVA-o1 frente a otros modelos abiertos y cerrados Fuente: arXiv

Además, la búsqueda de haces a nivel de etapa generó mejoras adicionales en el rendimiento, lo que demuestra la eficacia del escalamiento del tiempo de inferencia. Debido a limitaciones de recursos computacionales, los investigadores solo pudieron probar la técnica con un tamaño de haz de 2. Esperan mejoras aún mayores con tamaños de haz más grandes.

Sorprendentemente, LLaVA-o1 superó no sólo a otros modelos de código abierto del mismo tamaño o más grandes, sino también a algunos modelos de código cerrado como GPT-4-o-mini y Gemini 1.5 Pro.

“LLaVA-o1 establece un nuevo estándar para el razonamiento multimodal en VLM, ofreciendo un rendimiento sólido y escalabilidad, especialmente en tiempo de inferencia”, escriben los investigadores. “Nuestro trabajo allana el camino para futuras investigaciones sobre el razonamiento estructurado en VLM, incluidas posibles expansiones con verificadores externos y el uso del aprendizaje por refuerzo para mejorar aún más las capacidades complejas de razonamiento multimodal”.

Continue Reading

Trending