Gemini Advanced, la versión paga del chatbot de IA de Google, cuesta $ 20 por mes. Esa tarifa de suscripción le brinda acceso a modelos AI nuevos y experimentales antes de llegar a la experiencia de Géminis estándar, además de características exclusivas como la capacidad de crear gemas, chatbots personalizados que funcionan según sus especificaciones.
Esta semana, un desmontaje de APK indicó que la función de investigación profunda de Gemini, actualmente exclusiva para los usuarios con una suscripción avanzada de Gemini, llegará a la versión gratuita de alguna manera. La investigación profunda no sería la primera característica de Gemini pagada en saltar a la experiencia no remunerada: otras características de Buzzy como Gemini Live comenzaron a pagar antes de salir gratis. Simplemente no parece que hay muchas razones para pagar por Gemini en estos días.
Bienvenido al compiladorsu resumen semanal de Goings-On. Paso mis días mientras el editor de Google leyendo y escribiendo sobre lo que Google está haciendo a través de Android, Pixel, Gemini y más, y hablo de todo aquí en esta columna. Esto es lo que ha estado en mi mente esta semana.
La investigación profunda, actualmente impulsada por el modelo Gemini 1.5 Pro y exclusivo de la suscripción avanzada de Gemini pagada, es una característica de Gemini que puede realizar investigaciones en línea y reunir informes adaptados a sus especificaciones utilizando lo que encuentra. Para ser claros, Google no ha anunciado que la investigación profunda será gratuita. Pero Android Authority publicó un desmontaje APK a principios de esta semana que sugiere que una versión “freemium” de la funcionalidad está llegando a la experiencia Base Gemini en el futuro cercano.
Android Authority pone en citas “freemium”, que se lee como el código revisado por Android Tinkerer EnsambleBug usa esa palabra. Si ese es el caso, parece que la experiencia estándar de Gemini obtendrá una versión de investigación profunda, en lugar del acceso completo a la misma característica que actualmente está disponible con Advanced. Es posible que esta versión gratuita de Deep Research se limite a crear informes de un número menor de fuentes, o que los usuarios gratuitos solo puedan usar investigaciones profundas para generar un cierto número de informes en una ventana de tiempo.
Aun así, otra característica anteriormente pagada que llega a la versión gratuita de Google Gemini, incluso en una capacidad limitada, erosiona aún más la propuesta de valor de Gemini Advanced. Varias características avanzadas de Big-Ticket han llegado a la experiencia gratuita durante el año pasado.
Las características avanzadas de Géminis tienden a gotear
Gemini Live, que apareció prominentemente en el anuncio excesivamente sentimental del Super Bowl de Google, le permite tener una interacción verbal de ida y vuelta con Gemini al estilo de una conversación. La función debutó en agosto, y estaba lo suficientemente intrigado como para comenzar una prueba avanzada de Géminis para verlo. Sin embargo, una vez que la novedad de tener una conversación simulada con mi teléfono desapareció, descubrí que no había nada en Gemini Live que valga la pena continuar mi suscripción.
Incluso si Live realmente me hubiera enganchado, nunca hubiera tenido que pagar para usarlo de todos modos: Gemini Live llegó a la experiencia gratuita de Gemini en septiembre, solo un mes después de que aterrizó en la suscripción avanzada de Gemini de $ 20 al mes.
Relacionado
El anuncio de Super Bowl ‘Hazfelt’ de Google es tan cínico como Schmaltzy
Es dulce, pero ¿qué está diciendo?
Google hizo una serie de funciones avanzadas de Gemini anteriormente premium gratis en las últimas semanas.
En mayo pasado, Gemini Advanced ganó la capacidad de analizar archivos cargados de varios tipos para, como lo expresó Google en ese momento, “desbloquear ideas más profundas de sus documentos y racionalizar sus flujos de trabajo”. Hasta el mes pasado, es gratis. Ahora los usuarios pagados y estándar pueden hacer preguntas de Gemini sobre PDF y documentos de Word.
Días después de que Google abrió el análisis de documentos a todos los usuarios de Gemini, hizo lo mismo para una característica aún más especializada. A partir de finales de febrero, la versión gratuita de Gemini ahora incluye la funcionalidad de asistencia de código. Code Assist realmente se lanzó en 2023 bajo el nombre Duet Ai para desarrolladores, pero finalmente se renombró bajo el paraguas de Géminis como asistencia de código. Esta nueva versión gratuita no es tan versátil como lo que obtendrá con avanzado: no hay integración con Google Cloud Services en el nivel gratuito, por ejemplo. Pero obtiene hasta 180,000 terminaciones de código por mes sin pagar una moneda de diez centavos, que el director senior de gestión de productos de Google, Ryan J. Salva, dice que es suficiente incluso para la mayoría de los “desarrolladores profesionales más dedicados de hoy”.
Más tarde esa misma semana, la función de información guardada de Gemini, que le permite dar la instancia de su cuenta de información de Gemini que recordará y aplicará en futuras interacciones, también llegó al nivel libre. Había debutado sobre la suscripción avanzada pagada unos meses antes, en noviembre.
Incluso estableciendo una investigación profunda a un lado, esto se siente como un patrón: Google presenta una nueva característica llamativa sobre la suscripción avanzada de Gemini pagada, y luego, después de un período de semanas o meses, ofrece la función (o al menos una versión) a todos, de forma gratuita. Ese no ha sido el caso con cada La función avanzada, por supuesto, y Advanced siempre ofrecerá acceso temprano a los modelos Gemini más nuevos, como el modelo experimental de pensamiento Flash Gemini 2.0 recientemente lanzado.
Para las personas que no pagan por avanzado, esto no es un problema. Si eres un usuario informal de Géminis, la versión del chatbot con el que interactúas regularmente está recogiendo nuevas funciones, y probablemente no veas muchas razones para poner en efectivo cada mes. Por otro lado, parece que muchos suscriptores avanzados están obteniendo un trato crudo; La exclusividad cronometrada de las características de nicho cada vez más solo llega hasta ahora. A menos que sea un refuerzo de IA hardcore que construya chatbots personalizados y presione los límites de las ventanas de contexto, el mayor beneficio que obtendrá pagar por Gemini Advanced es probablemente el Terabyte de Drive Storage, el plan de $ 20/mes de Google incluye.
¿Google nos necesita gastar dinero en Gemini avanzado?
El dinero que Google está trayendo de un cuadro de usuarios apasionados que pagan $ 20 al mes para acceder a las funciones de vanguardia solo podría ser una caída en el cubo en relación con los servicios de IA como Gemini cuesta operar. Google tiene muchas planchas en el incendio y sus finanzas son un poco inescrutables para alguien como yo, pero los competidores de IA como Openai y Anthrope, que ofrecen productos comparables a Gemini en Chatgpt y Claude, actualmente están operando con pérdidas. Según los documentos revisados por el New York Times en septiembre, Operai se preparó para perder alrededor de $ 5 mil millones en 2024. El 2024 de Anthrope no fue mucho mejor, aunque esa compañía ofrece proyecciones soleadas para 2027 y más allá.
A pesar de que todas las pruebas que apuntan a la IA no son rentables como industria, la inversión corporativa en IA está por las nubes. El alfabeto matriz de Google ha revelado planes para gastar $ 75 mil millones sobre gastos de capital este año. Gran parte de ese gasto se dedicará a construir infraestructura de IA.
La principal ventaja de Google en cobrar $ 20 por mes por Advanced, una cantidad lo suficientemente alta como para perseguir a los usuarios casuales, pero aún puede alcanzar a muchos entusiastas, puede estar en la contención de nuevas características de IA intensivas en recursos para un pequeño subconjunto del grupo de usuarios de Gemini en general mientras Google reúne los datos de uso y aumenta la capacidad AI. El dinero real para los proveedores de IA radica en brindar servicio a organizaciones grandes (incluidos, en el caso de OpenAi, el gobierno federal) y responder a las llamadas de API del software de terceros que se conecta a la IA (piense en la integración de ChatGPT de Siri).
Sin embargo, para los usuarios regulares, no hay mucha ventaja en pagar por Gemini en este momento. Hay casos de borde: propietarios de pequeñas empresas que podrían beneficiarse de una característica específica que actualmente es exclusiva de Advanced, por ejemplo. Pero si eres un observador casual, mirando una característica avanzada u otra y piensa que podría ser genial jugar, hay una buena posibilidad de que tengas la oportunidad de hacerlo en el nivel libre en el futuro cercano.
Desde su lanzamiento la semana pasada, el agente de IA Manus ha ganado rápidamente tracción en línea. Desarrollado por la startup mariposa con sede en Wuhan, la comunidad de IA se ha dado cuenta, con más de 2 millones de personas en la lista de espera.
Al compararlo con Deepseek, Manus se distingue a sí mismo como lo que dice ser el primer agente general de IA del mundo, lo que lo distingue de los chatbots de IA tradicionales. En lugar de confiar en un solo modelo de lenguaje grande, como ChatGPT, Grok, Deepseek y otros sistemas de IA conversacionales, Manus opera con múltiples modelos de IA, incluidos el soneto Claude 3.5 de Anthrope y las versiones ajustadas de Alibaba’s Open-Source Qwen.
Operai ha presentado una larga propuesta al gobierno de los Estados Unidos, con el objetivo de influir en su próximo plan de acción de IA, un informe de estrategia que muchos creen que guiará la política del presidente Donald Trump sobre la tecnología de inteligencia artificial.
La propuesta de la compañía de IA más reconocible de Estados Unidos es previsiblemente controvertida, y requiere que el gobierno de los Estados Unidos enfatice la velocidad del desarrollo sobre el escrutinio regulatorio, al tiempo que advierte los peligros que plantean las empresas de IA chinas para el país.
Trump pidió que el Plan de Acción de AI fuera redactado por la Oficina de Política de Ciencia y Tecnología y se sometió a él para julio poco después de asumir su segunda residencia en la Casa Blanca. Eso sucedió en enero, cuando expulsó una orden ejecutiva relacionada con la IA que fue firmada por su predecesor Joe Biden en octubre de 2023, reemplazándola con la suya, declarando que “es la política de los Estados Unidos para mantener y mejorar el dominio global de IA de Estados Unidos”.
Operai ha perdido poco tiempo al tratar de influir en las recomendaciones en ese plan, y en su propuesta dejó en claro sus sentimientos sobre el nivel actual de regulación en la industria de la IA. Pidió que los desarrolladores de IA recibieran “la libertad de innovar en el interés nacional”, y abogó por una “asociación voluntaria entre el gobierno federal y el sector privado”, en lugar de “leyes estatales demasiado pesadas”.
Argumenta que el gobierno federal debería poder trabajar con compañías de IA de manera “puramente voluntaria y opcional”, diciendo que esto ayudará a promover la innovación y la adopción de la tecnología. Además, pidió a los EE. UU. Que cree una “estrategia de control de exportación” que cubra los sistemas de IA fabricados en Estados Unidos, que promoverán la adopción global de su tecnología de IA de cosecha propia.
Impulso por la adopción del gobierno
La compañía argumenta además en sus recomendaciones que el gobierno otorga a las agencias federales una mayor libertad para “probar y experimentar” las tecnologías de IA que utilizan “datos reales”, y también solicitó a Trump que otorgue una exención temporal que negaría la necesidad de que los proveedores de IA estén certificados bajo el programa federal de gestión de riesgos y autorización. Pidió a Trump que “modernice” el proceso que las compañías de IA deben pasar para ser aprobadas para el uso del gobierno federal, pidiendo la creación de una “ruta más rápida basada en criterios para la aprobación de las herramientas de IA”.
Openai argumenta que sus recomendaciones harán posible que las agencias del gobierno federal utilicen los nuevos sistemas de IA hasta 12 meses más rápido de lo que es posible actualmente. Sin embargo, algunos expertos de la industria han expresado su preocupación de que la adopción tan rápida de la IA por parte del gobierno podría crear problemas de seguridad y privacidad.
Al presionar más, OpenAi también le dijo al gobierno de los Estados Unidos que debería asociarse más estrechamente con las empresas del sector privado para construir sistemas de IA para uso de seguridad nacional. Explicó que el gobierno podría beneficiarse de tener sus propios modelos de IA que están capacitados en conjuntos de datos clasificados, ya que estos podrían “ajustados para ser excepcionales en las tareas de seguridad nacional”.
Operai tiene un gran interés en abrir el sector del gobierno federal para productos y servicios de IA, después de haber lanzado una versión especializada de ChatGPT, llamada ChatGPT Gov, en enero. Está diseñado para ser dirigido por agencias gubernamentales en sus propios entornos informáticos seguros, donde tienen más control sobre la seguridad y la privacidad.
‘Libertad para aprender’
Además de promover el uso gubernamental de la IA, Operai también quiere que el gobierno de los Estados Unidos facilite su propia vida al implementar una “estrategia de derechos de autor que promueva la libertad de aprender”. Pidió a Trump que desarrollara regulaciones que preservarán la capacidad de los modelos de IA estadounidenses para aprender de los materiales con derechos de autor.
“Estados Unidos tiene tantas nuevas empresas de IA, atrae tanta inversión y ha hecho tantos avances de investigación en gran medida porque la doctrina de uso justo promueve el desarrollo de IA”, declaró la compañía.
Es una solicitud controvertida, porque la compañía actualmente está luchando contra múltiples organizaciones de noticias, músicos y autores sobre reclamos de infracción de derechos de autor. El ChatGPT original que se lanzó a fines de 2022 y los modelos más poderosos que se han lanzado desde entonces están en gran medida entrenados en Internet público, que es la principal fuente de su conocimiento.
Sin embargo, los críticos de la compañía dicen que básicamente está plagiando contenido de los sitios web de noticias, de los cuales muchos están paseados por pagos. Operai ha sido golpeado con demandas por el New York Times, el Chicago Tribune, el New York Daily News y el Centro de Informes de Investigación, la sala de redacción sin fines de lucro más antigua del país. Numerosos artistas y autores también han emprendido acciones legales contra la empresa.
Si no puedes vencerlos, ¿prohibirlos?
Las recomendaciones de Openai también apuntaron a algunos de los rivales de la compañía, en particular Deepseek Ltd., el laboratorio de IA chino que desarrolló el modelo Deepseek R-1 con una fracción del costo de cualquier cosa que Operai haya desarrollado.
La compañía describió a Deepseek como “subsidiado por el estado” y “controlado por el estado”, y le pidió al gobierno que considerara prohibir sus modelos y los de otras empresas chinas de IA.
En la propuesta, Openai afirmó que el modelo R1 de Deepseek es “inseguro”, porque la ley china requiere que cumpla con ciertas demandas con respecto a los datos del usuario. Al prohibir el uso de modelos de China y otros países de “nivel 1”, Estados Unidos podría minimizar el “riesgo de robo de IP” y otros peligros, dijo.
“Mientras Estados Unidos mantiene una ventaja en la IA hoy, Deepseek muestra que nuestro liderazgo no es ancho y está reduciendo”, dijo Openii.
Foto: TechCrunch/Flickr
Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido libre.
Un clic a continuación admite nuestra misión de proporcionar contenido gratuito, profundo y relevante.
Únete a nuestra comunidad en YouTube
Únase a la comunidad que incluye a más de 15,000 expertos en #Cubealumni, incluido el CEO de Amazon.com, Andy Jassy, el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger y muchos más luminarios y expertos.
“TheCube es un socio importante para la industria. Ustedes realmente son parte de nuestros eventos y realmente les apreciamos que vengan y sé que la gente aprecia el contenido que crean también ” – Andy Jassy
Google Deepmind ha introducido Gemini Robotics, nuevos modelos de IA diseñados para traer razonamiento avanzado y capacidades físicas a los robots.
Construido sobre la base de Gemini 2.0, los nuevos modelos representan un salto hacia la creación de robots que pueden entender e interactuar con el mundo físico de manera que anteriormente se limitaron al ámbito digital.
Los nuevos modelos, Robótica de Géminis y Géminis robótica (Razonamiento encarnado), tiene como objetivo permitir a los robots realizar una gama más amplia de tareas del mundo real combinando la visión avanzada, el lenguaje y las capacidades de acción.
Gemini Robotics tiene como objetivo cerrar la brecha física digital
Hasta ahora, los modelos de IA como Gemini se han destacado en el razonamiento multimodal en texto, imágenes, audio y video. Sin embargo, sus habilidades se han limitado en gran medida a las aplicaciones digitales.
Para que los modelos de IA realmente útiles en la vida cotidiana, deben poseer “razonamiento encarnado” (es decir, la capacidad de comprender y reaccionar ante el mundo físico, al igual que los humanos).
Gemini Robotics aborda este desafío al introducir acciones físicas Como una nueva modalidad de salida, permitiendo que el modelo controle directamente los robots. Mientras tanto, Gemini Robotics-ER mejora la comprensión espacial, lo que permite a los robotistas para integrar las capacidades de razonamiento del modelo en sus propios sistemas.
Estos modelos representan un paso fundamental hacia una nueva generación de robots útiles. Al combinar la IA avanzada con la acción física, Google Deepmind está desbloqueando el potencial de los robots para ayudar en una variedad de configuraciones del mundo real, desde hogares hasta lugares de trabajo.
Características clave de Géminis Robótica
Gemini Robotics está diseñado con tres cualidades centrales en mente: generalidad, interactividady destreza. Estos atributos aseguran que el modelo pueda adaptarse a diversas situaciones, responder a entornos dinámicos y realizar tareas complejas con precisión.
Generalidad
Gemini Robotics aprovecha las capacidades mundiales de Enderstanding de Gemini 2.0 para generalizar en situaciones novedosas. Esto significa que el modelo puede abordar las tareas que nunca antes había encontrado, adaptarse a nuevos objetos y operar en entornos desconocidos. Según Google Deepmind, Gemini Robotics duplica más que el rendimiento de los modelos de acción de la visión de última generación en los puntos de referencia de generalización.
Para funcionar de manera efectiva en el mundo real, los robots deben interactuar sin problemas con las personas y sus alrededores. Gemini Robotics sobresale en esta área, gracias a sus capacidades avanzadas de comprensión del idioma. El modelo puede interpretar y responder a las instrucciones del lenguaje natural, monitorear su entorno para los cambios y ajustar sus acciones en consecuencia.
Por ejemplo, si un objeto se desliza del alcance de un robot o es movido por una persona, Gemini Robotics puede replantar rápidamente y continuar la tarea. Este nivel de adaptabilidad es crucial para las aplicaciones del mundo real, donde la imprevisibilidad es la norma.
Muchas tareas cotidianas requieren habilidades motoras finas que tradicionalmente han sido desafiantes para los robots. Gemini Robotics, sin embargo, demuestra una destreza notable, lo que permite realizar tareas complejas y de varios pasos, como el origami plegable o empacar un refrigerio en una bolsa Ziploc.
Realizaciones múltiples para diversas aplicaciones
Una de las características destacadas de Gemini Robotics es su capacidad para adaptarse a diferentes tipos de robots. Si bien el modelo se capacitó principalmente utilizando datos de la plataforma robótica bi-brazo Aloha 2, también se ha probado con éxito en otras plataformas, incluidas las armas Franka utilizadas en los laboratorios académicos.
Google Deepmind también está colaborando con Apptronik para integrar la robótica de Géminis en su robot humanoide, Apollo. Esta asociación tiene como objetivo desarrollar robots capaces de completar tareas del mundo real con eficiencia y seguridad sin precedentes.
Gemini Robotics-ER es un modelo diseñado específicamente para mejorar las capacidades de razonamiento espacial. Este modelo permite a los robotistas conectar las habilidades de razonamiento avanzado de Gemini con sus controladores de bajo nivel existentes, lo que permite tareas como la detección de objetos, la percepción 3D y la manipulación precisa.
Por ejemplo, cuando se le muestra una taza de café, Gemini Robotics-ER puede determinar una comprensión de dos dedos apropiada para recogerla por el mango y planificar una trayectoria segura para abordarlo. El modelo logra una tasa de éxito 2X-3X en comparación con Gemini 2.0 en tareas de extremo a extremo, lo que lo convierte en una herramienta poderosa para los robotistas.
Priorizar la seguridad y la responsabilidad
Google Deepmind dice que la seguridad es una prioridad y posteriormente ha implementado un enfoque en capas para garantizar la seguridad física de los robots y las personas que los rodean. Esto incluye la integración de medidas de seguridad clásicas, como la evitación de colisiones y la limitación de la fuerza, con las capacidades de razonamiento avanzado de Gemini.
Para avanzar aún más en la investigación de seguridad, Google Deepmind está lanzando el conjunto de datos Asimov, un nuevo recurso para evaluar y mejorar la seguridad semántica en la IA y la robótica incorporada. El conjunto de datos está inspirado en el de Isaac Asimov Tres leyes de robótica y tiene como objetivo ayudar a los investigadores a desarrollar robots que sean más seguros y más alineados con los valores humanos.
Google Deepmind está trabajando con un grupo selecto de probadores, incluidos robots ágiles, robots de agilidad, dinámica de Boston y herramientas encantadas, para explorar las capacidades de Gemini Robotics-Er. Google dice que estas colaboraciones ayudarán a refinar los modelos y guiarán su desarrollo hacia aplicaciones del mundo real.
Al combinar el razonamiento avanzado con la acción física, Google Deepmind está allanando el camino para un futuro donde los robots pueden ayudar a los humanos en una amplia gama de tareas, desde tareas domésticas hasta aplicaciones industriales.
Ver también: La ‘bolsa de golf’ de los robots abordará entornos peligrosos
¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Echa un vistazo a AI y Big Data Expo que tendrá lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluida la Conferencia de Automatización Inteligente, Blockx, la Semana de Transformación Digital y Cyber Security & Cloud Expo.
Explore otros próximos eventos y seminarios web de tecnología empresarial alimentados por TechForge aquí.
Etiquetas: IA, inteligencia artificial, profunda, IA encarnada, robótica de Géminis, Google, modelos, robótica, robots
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.