Noticias

El filtro Ghibli de Chatgpt es político ahora, pero siempre fue

Published

1 semana ago

28 marzo, 2025

Cuando vi la historia de mi colega Kylie Robison sobre el nuevo generador de imágenes de Openai el martes, pensé que esta semana podría ser divertida. Las imágenes generativas de IA plantean todo tipo de problemas éticos, pero las encuentro muy entretenidas, y pasé grandes trozos de ese día viendo a otros Borde El personal prueba chatgpt de manera que cubrió todo el espectro, desde lindo hasta maldito.

Pero el jueves por la tarde, la Casa Blanca decidió estropearlo. Su cuenta X publicó una fotografía de un detenido de llanto que se jactó era un traficante de fentanilo arrestado e inmigrante indocumentado. Luego agregó una caricatura generada por AI de un oficial que esposó a la mujer sollozada, no atribuida a ninguna herramienta en particular, pero en el estilo inconfundible de las imitaciones súper populares de Ghibli Studio Gibli de Chatgpt, que han inundado Internet durante la última semana.

Un uso feo de una herramienta de software no debe acusar necesariamente a esa herramienta. Pero cuando la imagen se unió al anfitrión de otros en mis feeds sociales, el adorable filtro de Ghibli y el bombardeo de las redes sociales de la Casa Blanca comenzaron a sentirse de alguna manera hechos el uno por el otro. Ambos son, tan contraintuitivos como pueden parecer, el producto de una mentalidad que trata la decencia básica como debilidad e insensibilidad como la prerrogativa del poder.

Nos comunicamos con OpenAi y la Casa Blanca para obtener más detalles, pero la medida ascendió a un extraño anuncio de productos de la compañía que el propio presidente Donald Trump tiene vínculos estrechos. Los jefes de estado han estado subiendo a los memes de las redes sociales durante años, y no técnicamente Sepa si ChatGPT u otro generador de IA produjo la imagen. (En las posibilidades del 1 por ciento, la Casa Blanca encargó a un artista y están leyendo esto, me encantaría saber de ellos). Pero el CEO de OpenAi, Sam Altman, ha estado promoviendo las imágenes generadas por el estilo de Ghibli como una característica genial actualmente exclusiva de los niveles pagos de Chatgpt. Y Trump es un refuerzo muy público del proyecto Stargate de OpenAI, anunciándolo en una conferencia de prensa con Altman.

En la superficie, Ai Ghibli y Trump encajan extrañamente. El objetivo claro de la Casa Blanca era un tipo familiar de sadismo performativo extremadamente en línea; Esta es la misma cuenta que publicó un video de “ASMR: vuelo ilegal de deportación alienígena” de las cadenas de tintineo de los prisioneros. Es asqueroso y juvenil, incluso si asumimos que toda su información es precisa, en lugar de, por ejemplo, el resultado de algo como agentes que leen un tatuaje de conciencia del autismo como símbolo de pandillas. Ninguna persona razonable defiende la humillación pública nacional de lo que parece ser un detenido de inmigración de nivel bastante bajo como buen gobierno, mensajes públicos efectivos o un bien moral.

La estética de Ghibli es tan saludable que socava esto. Incluso un prominente conservador de Silicon Valley ha señalado que representar a una mujer de anime sollozada arrestada por un agente con cara de piedra no pone la simpatía de la mayoría de las personas con el agente.

Sin embargo, AI Media en general es la estética principal del movimiento MAGA, que produce muchos otros trabajos extraños e insípidos. Es una consecuencia natural de su amor de larga data por las fotos de Photoshop y los dibujos animados que representan a Trump como un musculoso exagerado. También es el producto de los vínculos entre Trump y la industria de la IA, la mayoría de los “primer amigo” y el fundador de Xai, Elon Musk, pero también cosas como Stargate y la colocación de David Sacks como “Ai Czar”.

Hace ocho años, una compañía de tecnología podría haberse distanciado de alguien que salta sobre sus memes para promover la deportación masiva

No sé cómo se sienten Openai y Altman acerca de la Casa Blanca que promueve un anuncio conjunto para ChatGPT y un intento brutal y probablemente parcialmente ilegal de expulsar a los inmigrantes de Estados Unidos. (Altman era un conocido patrocinador de causas progresivas hasta esta administración). Antes de la publicación de esta imagen, el equipo de OpenAI enfatizó que se supone que el generador de imágenes de ChatGPT ofrece una barandilla altamente flexible, por lo que pueden sostener que esto no es diferente del uso de Photoshop ofensivamente. Y esto podría ser evidente, pero no estoy claro que Operai debería o podría Bloquee la mera producción de algo como esta imagen: si no hubiera sido publicado por la Casa Blanca, incluso podría leerla como una protesta de estos arrestos.

Al mismo tiempo, hace 8 años, cuando Silicon Valley y Trump estaban en oposición, una importante compañía tecnológica podría haberse distanciado. Una declaración como “OpenAI cree en la máxima libertad artística y capacidad de respuesta a las solicitudes de los usuarios, pero la publicación de esta administración no refleja los valores de nuestra empresa” no es una aguja difícil de enhebrar.

La presión social y política para evitar hacerlo ahora es abrumadora. Cualesquiera que sean las opiniones internas del personal de OpenAI, es un mal negocio ser agotado por un presidente vengativo y luego darse la vuelta para criticar sus políticas, particularmente en medio de un giro a la derecha más grande de Silicon Valley.

Pero también hay algo más profundo en el juego, porque el filtro de Ghibli en sí tiene un regusto agrio: en esencia, es un eco menor del total desprecio de la era de Trump por otros seres humanos.

No soy remotamente inmune al atractivo de las imágenes giblificadoras. En serio. Algunos de ellos son realmente adorables. La gente ha amado los filtros de anime durante años, y no creo que la mayoría de estas imágenes se hayan creado con mala intención. Pero el cineasta Hayao Miyazaki, cuyo nombre es sinónimo del estudio de animación, es uno de los artistas más famosos del mundo. Es ampliamente citado por llamar a una versión anterior de AI Animation “Un insulto a la vida en sí misma”, y no hay señal de que apruebe de que Chatgpt se use para imitar su estilo característico probablemente gracias a la capacitación en su arte, y mucho menos que sean OpenAi vendiendo suscripciones desde el fondo. Utilizando el trabajo de Ghibli específicamente para la publicidad, como Sangre en la máquina El autor Brian Merchant explica, es un movimiento de poder. Le dice en voz alta a los artistas cuyas creaciones hacen que Chatgpt funcione, Tomaremos lo que queremos y le diremos a todos que lo estamos haciendo. ¿Te das consentimiento? No nos importa.

Operai podría haberse acercado a los artistas como socios, no a productores obsoletos de datos de capacitación en bruto

La tecnología y la política contemporánea están unidas en una ideología de dominación: el principio de que la fuerza, el dinero y la autoridad se manejan mejor obligando a otros a hacer lo que quieran. Con Trump, esto probablemente se explique por sí mismo. Con la tecnología, se manifiesta en cada característica de IA inútil que reemplaza algo útil, en la insistencia de que una tecnología sucederá porque es inevitable, no porque haya persuadido a las personas, hace algo bueno. La crítica es un desgarro sin sentido de los grandes hombres. La empatía, la autoexaminación y el compromiso son afeminados y débiles.

La ironía es que en medio de un mar de casos de uso de IA inútil o disfuncional, el filtro Gibli es muy popular. Pero hay un mundo en el que OpenAi capturó su atractivo sin una falta de respeto descarada por las personas en cuyo trabajo se está basando. Las compañías de IA podrían (si no tan barato) haber construido sus productos mientras se acercan a los artistas como socios en lugar de productores obsoletos de datos de capacitación en bruto. Incluso si alguien como Miyazaki nunca acepte la imitación automatizada, OpenAi podría haber encontrado otro animador o dibujante y chatgpt sintonizado para trabajar bien con su estilo, promoviendo a un artista menos conocido en el proceso. Pero eso requeriría creer que las personas que no son grandes hombres valen la pena trabajar y aprender, no simplemente abrumadoras.

Una vez más, ¿creo que pagar por ChatGPT te convierte en una mala persona? En algún momento, pagar por casi cualquier cosa financia algo inhumano y dañino, a menudo de maneras mucho más destructivas. Todos dibujamos estas líneas para nosotros mismos, y no estoy seguro de dónde caen el mío.

Sin embargo, las protestas de derribo de Tesla demuestran cómo atar su negocio a la política tóxica puede ser contraproducente. Innumerables personas están usando Chatgpt para hacer fotos lindas de sus seres queridos; Hay algo muy triste en Operai que en silencio, dejando que la Casa Blanca muestre el meme como una forma de intimidar a los impotentes. ¿Los investigadores de OpenAI piensan que esto avanza la causa de “AI para el bien”? Y a medida que todas las empresas en Silicon Valley comproban sus sistemas de IA, dónde dibujarán su ¿pauta?

Noticias

10 mejores publicaciones en x

Published

5 horas ago

5 abril, 2025

Sergio Villanueva

Ha pasado menos de un día desde que Operai actualizó GPT-4O con capacidades avanzadas de generación de imágenes, e Internet ya está en un frenesí. Muchos usuarios han inundado las redes sociales con sus creaciones utilizando GPT-4O. La última oferta de OpenAI se ve como un salto tecnológico hacia adelante, y algunas salidas son notablemente impresionantes.

La nueva característica, denominada “Imágenes en ChatGPT”, difiere de Dall-E porque las imágenes se generan dentro de GPT-4O. Además, el modelo se ha descrito como “omnimodal”, lo que significa que puede generar varios tipos de datos, incluidas imágenes, texto, audio y video. Esto marca un cambio en el desarrollo de IA, donde los modelos obtienen la capacidad de integrar múltiples formas de datos sin problemas.

Si eres fanático de Ghibli Films, el último modelo GPT-4O de OpenAI puede generar algunas de las imágenes más importantes de Ghibli. Los usuarios simplemente necesitan cargar una imagen y pedirle al modelo que la transforme en el estilo de anime Ghibli. Dado que esta característica se hizo ampliamente conocida, numerosos usuarios han llevado a la plataforma para mostrar su creatividad.

La historia continúa debajo de este anuncio

Aquí hay un vistazo a algunas publicaciones notables en X:

Quiero decir, vamos … pic.twitter.com/y91xfbwhoe

– Sam (@samdape) 26 de marzo de 2025

Fotos tecnológicas icónicas – Studio Ghibli Edition pic.twitter.com/p4p5bd4pxo

– Arun (@xprunie) 26 de marzo de 2025

tremendo alfa ahora mismo en enviar fotos de su esposa de todos los convirtió a Studio Ghibli Anime pic.twitter.com/froszdfsfn

– Grant Slatton (@grantslatton) 25 de marzo de 2025

Ok, creo que estoy enamorado de la nueva función de edición de imágenes de Chatgpt.

Puede convertir todas las fotos de mi familia en retratos de Ghibli. pic.twitter.com/tzcbxpua0d

– Peter Yang (@PeterGyang) 26 de marzo de 2025

Algunas películas legendarias de Bollywood como se ven en estilo Gibli.

Nadie pidió escenas de películas de Bollywood en estilo Gibli, pero aquí están. pic.twitter.com/umidaa7lnu

– Vivek Choudhary (@ivivekch) 26 de marzo de 2025

El salto de Elon Musk a uno de los manifestantes del presidente Donald Trump antes de las elecciones presidenciales de los Estados Unidos de 2024.

Ghibli: Studio Ghibli es un estudio de animación japonés con sede en Koganei, Tokio, Japón. Es mejor conocido por sus películas de anime, pero también ha producido varios cortometrajes, comerciales de televisión y una serie de televisión.

Recientemente, el estilo de arte de Gibli se ha convertido en una tendencia debido … pic.twitter.com/zsbtv3pott

– Memefi Insider (@MeMefiInsider) 26 de marzo de 2025

Convertir las viejas fotos de la infancia en Studio Ghibli y enviar a mis padres pic.twitter.com/zl3qynvtml

– Linda Xie (@ljxie) 26 de marzo de 2025

¡Nusrat Saab conoce a Ghibli! pic.twitter.com/vtye6rryki

– Karan Mishra (@OSAfarnama) 26 de marzo de 2025

Memes populares en estilo Gibli.

Han pasado 24 horas desde que Operai sacudió inesperadamente el mundo de la imagen de IA con una generación de imágenes 4O.

Estos son los 14 ejemplos más alucinantes hasta ahora (100% generados por IA):

1. Memes de estilo Ghibli Studiopic.twitter.com/e38mbnpnqh

– Barsee (@heybarsee) 26 de marzo de 2025

Más allá de las imágenes al estilo de Ghibli

La función de generación de imágenes muestra una versatilidad extraordinaria en los dominios creativos. Ofrece a los usuarios capacidades artísticas refinadas que les permiten transformar sus fotos en una variedad de estilos, incluidos South Park, Minecraft, LEGO, Voxel, acuarela, marioneta y animación de manguera de goma. Además, es excelente cuando se trata de diseño creativo, especialmente en la generación de infografías, maquetas de productos, logotipos, carteles, otros campos visuales, etc.

Hola chatgpt, por favor conviértanos en personajes de LEGO … pic.twitter.com/mezscqu9pw

– John Nack (@Jnack) 26 de marzo de 2025

También podrías Park South Carny ahora pic.twitter.com/rkogy3dpxm

– Meme Bastard (@Mask_Bastard) 26 de marzo de 2025

4O Voxel Art. Tienes que estar bromeando. pic.twitter.com/aeomytrcmb

– gfodor.id (@gfodor) 26 de marzo de 2025

La representación de texto, que ha sido un desafío para los modelos de IA, es particularmente precisa con esta nueva característica, ya que ofrece elementos de texto detallados y precisos dentro de las salidas. Produce imágenes fotorrealistas con detalles excepcionales con iluminación realista, profundidad de campo, texturas complejas, etc. Estas capacidades también se extienden a la creación de imágenes hiperrealistas de animales, personas y varios escenarios del mundo real.

La parte más impresionante es el control que tiene sobre detalles sutiles, como expresiones faciales, accesorios, textura de la piel en una imagen. Incluso se puede agregar o eliminar elementos de fondo, editar imágenes existentes y transformar fotografías. Además, el generador de imágenes también puede realizar indicaciones complejas de generación de imágenes de varias partes, produciendo escenas surrealistas. El aspecto más notable del generador es su comprensión contextual y su flexibilidad creativa. Desde Polaroid hasta DSLR de alta resolución, el generador es capaz de crear varios estilos fotográficos.

La capacidad de generación de imágenes mejorada en ChatGPT, impulsada por GPT-4O, está disponible para usuarios Plus, Pro, Team y Free Free, también a través de API. A diferencia de Dall-E, las imágenes creadas con la versión actualizada no tienen una marca de agua visual.

¿Qué son las películas de Ghibli?

La historia continúa debajo de este anuncio

Las películas de Ghibli son largometrajes animados producidos por el estudio japonés del mismo nombre. Estas películas son conocidas por su estética distintiva, que complementan su narración de cuentos de vida. Mientras está profundamente arraigado en la cultura japonesa, exploran temas universales.

Studio Ghibli fue fundado en 1985 por el cineasta Hayao Miyazaki, junto con Isao Takahata y Toshio Suzuki. Miyazaki es uno de los nombres más reconocidos en la animación, con múltiples honores a su crédito. Aunque las películas de Ghibli son anime, el estudio se destaca por su romanticización de la vida cotidiana.

Algunas de las películas de Ghibli más populares incluyen a la princesa Mononoke (1997), Spirited Away (2001), Grave of the Fireflies (1988), Howl’s Moving Castle (2004), Porco Rosso (1992) y mi vecino Totoro (1988), entre otros. Su narración lúcida, configuraciones idílicas y personajes afables han fomentado un fandom devoto y duradero.

Con las capacidades avanzadas de generación de imágenes de Chatgpt, muchos fanáticos de las películas de Ghibli tienen la oportunidad de reinventar sus fotos en la estética similar a Gibli.

Noticias

How ChatGPT, Gemini, Claude, And Others Are Shaping The Future Of Artificial Intelligence – Analysis – Eurasia Review

Published

7 horas ago

5 abril, 2025

Sergio Villanueva

The competition among top AI models is transforming how we work, create, and communicate. But as these systems grow smarter and more accessible, new questions emerge about cost, sustainability, and responsible development in a rapidly evolving landscape.

Artificial intelligence (AI) has seen rapid growth, transforming industries and daily life. From chatbots to advanced generative models, AI’s capabilities continue to expand, driven by powerful companies investing heavily in research and development. “The development of AI is as fundamental as the creation of the microprocessor, the personal computer, the Internet, and the mobile phone,” wrote Bill Gates in 2023. “It will change the way people work, learn, travel, get health care, and communicate with each other.”

In 2025, companies such as OpenAI, Google, Anthropic, and emerging challengers like DeepSeek have pushed the boundaries of what large language models (LLMs) can do. Moreover, corporate solutions from Microsoft and Meta are making AI tools more accessible to enterprises and developers alike. This article explores the latest AI models available to the public, their advantages and drawbacks, and how they compare in the competitive AI landscape.

The Power and Performance of AI Models

AI models rely on extensive computational resources, particularly large language models (LLMs) that require vast datasets and processing power. The leading AI models undergo complex training procedures that involve billions of parameters, consuming significant energy and infrastructure.

Key AI players invest in cutting-edge hardware and optimization strategies to improve efficiency while maintaining high performance. The balance between computational power, speed, and affordability is a significant factor in differentiating these AI models.

The Competitive Landscape: Top AI Models

OpenAI’s ChatGPT

ChatGPT, developed by OpenAI, is one of the most recognizable and widely used AI models in the world. Built with a dialogue-driven format, ChatGPT is designed to answer follow-up questions, challenge incorrect premises, admit mistakes, and reject inappropriate requests. Its versatility has made it a leading AI tool for both casual and professional use, spanning industries such as customer service, content creation, programming, and research.

ChatGPT is ideal for a wide range of users, including writers, business professionals, educators, developers, and researchers. Its free-tier accessibility makes it an excellent starting point for casual users, while businesses, content creators, and developers can leverage its advanced models for enhanced productivity and automation.

It is also among the most user-friendly AI models available, featuring a clean interface, intuitive responses, and seamless interaction across devices. However, organizations that require custom AI models or stricter data privacy controls may find its closed-source nature restrictive, particularly compared to open-source alternatives like Meta’s LLaMA.

The latest version, GPT-4o, is available for free-tier users and offers a strong balance of speed, reasoning, and text generation capabilities. For users seeking enhanced performance, ChatGPT Plus provides priority access and faster response times at a monthly subscription cost.

For professionals and businesses requiring more robust capabilities, ChatGPT Pro unlocks advanced reasoning features through the o1 pro mode, which includes enhanced voice functionality and improved performance on complex queries.

Developers looking to integrate ChatGPT into applications can access its API, a type of software interface. Pricing starts at approximately $0.15 per million input tokens and $0.60 per million output tokens for GPT-4o mini, while the more powerful o1 models come at a higher cost. A token is defined as a fundamental unit of data, like a word or subword, that an AI model processes to understand and generate text.

One of ChatGPT’s greatest strengths is its versatility and conversational memory. It can handle a broad range of tasks, from casual conversation and creative writing to technical problem-solving, coding assistance, and business automation. When memory is enabled, ChatGPT can retain context across interactions, allowing for a more personalized user experience.

Another key advantage is its proven user base—with hundreds of millions of users worldwide, ChatGPT has undergone continuous refinement based on real-world feedback, improving its accuracy and usability. Additionally, GPT-4o’s multimodal capabilities allow it to process text, images, audio, and video, making it a comprehensive AI tool for content creation, analysis, and customer engagement.

While a free version exists, the most powerful features require paid subscriptions, which may limit accessibility for smaller businesses, independent developers, and startups. Another drawback is an occasional lag in real-time updates; even though ChatGPT has web-browsing capabilities, it may struggle with the most recent or fast-changing information. Lastly, its proprietary model means users have limited control over modifications or customization, as they must adhere to OpenAI’s data policies and content restrictions.

Google’s Gemini

Google’s Gemini series is renowned for its multimodal capabilities and its ability to handle extensive context, making it a versatile tool for both personal and enterprise-level applications.

General consumers and productivity users benefit from Gemini’s deep integration with Google Search, Gmail, Docs, and Assistant, making it an excellent tool for research, email drafting, and task automation. Business and enterprise users find value in Gemini’s integration with Google Workspace, enhancing collaboration across Drive, Sheets, and Meet. Developers and AI researchers can leverage its capabilities through Google Cloud and Vertex AI, making it a strong choice for building AI applications and custom models. Creative professionals can take advantage of its multimodal abilities, working with text, images, and video. Meanwhile, students and educators benefit from Gemini’s ability to summarize, explain concepts, and assist with research, making it a powerful academic tool.

Google Gemini is highly accessible, especially for those already familiar with Google services. Its seamless integration across Google’s ecosystem allows for effortless adoption in both personal and business applications. Casual users will find it intuitive, with real-time search enhancements and natural interactions that require little to no learning curve. Developers and AI researchers can unlock advanced customization through API access and cloud-based features, though utilizing these tools effectively may require technical expertise.

The current versions, Gemini 1.5 Flash and Pro, cater to different needs, with Flash offering a cost-efficient, distilled option and Pro providing higher performance. Meanwhile, the Gemini 2.0 series, designed primarily for enterprise use, includes experimental models like Gemini 2.0 Flash with enhanced speed and multimodal live APIs, as well as the more powerful Gemini 2.0 Pro.

Basic access to Gemini is often free or available through Google Cloud’s Vertex AI. Still, advanced usage, especially when integrated into enterprise solutions, was introduced at $19.99–$25 per month per user, with pricing adjusted to reflect added features like a 1-million-token context window.

Gemini’s main advantage over other AIs is that it excels in processing text, images, audio, and video simultaneously, making it a standout in multimodal mastery. It also integrates seamlessly with Google Workspace, Gmail, and Android devices, making it a natural fit for users already in the Google ecosystem. Additionally, it offers competitive pricing for developers and enterprises needing robust capabilities, especially in extended context handling.

However, Gemini’s performance can be inconsistent, particularly with rare languages or specialized queries. Some advanced versions may be limited by safety testing, delaying wider access. Furthermore, its deep integration with Google’s ecosystem can be a barrier for users outside that environment, making adoption more challenging.

Anthropic’s Claude

Anthropic’s Claude is known for its emphasis on safety, natural conversational flow, and long-form contextual understanding. It is particularly well-suited for users who prioritize ethical AI usage and structured collaboration in their workflows.

Researchers and academics who need long-form contextual retention and minimal hallucinations, as well as writers and content creators who benefit from its structured approach and accuracy, will find Claude an essential and beneficial AI assistant. Business professionals and teams can leverage Claude’s “Projects” feature for task and document management, while educators and students will find its safety guardrails and clear responses ideal for learning support.

Because Claude is highly accessible for those seeking a structured, ethical AI with a strong contextual understanding, it is moderately suitable for creative users who may find its restrictive filters limiting and less ideal for those needing unrestricted, fast brainstorming tools or AI-generated content with minimal moderation.

Claude 3.5 Sonnet, on the other hand, is the flagship model, offering enhanced reasoning, speed, and contextual understanding for both individual and enterprise users. For businesses and teams, the Claude Team and Enterprise Plans start at approximately $25 per user per month (billed annually), providing advanced collaboration features. Individual users can access Claude Pro, a premium plan that costs around $20 per month, offering expanded capabilities and priority access. A limited free tier is also available, allowing general users to explore basic features and test its functionality.

Unlike most AIs, Claude excels in ethical AI safety, extended conversational memory, and structured project management, making it ideal for users who require reliable and well-moderated AI assistance. Its intuitive interface and organization tools enhance productivity for writers, researchers, educators, and business professionals.

However, there are instances when availability constraints during peak hours can disrupt workflow efficiency. Claude’s strict safety filters, while preventing harmful content, sometimes limit creative flexibility, making it less suitable for highly experimental or unrestricted brainstorming sessions. Additionally, enterprise costs may be high for large-scale teams with extensive AI usage.

DeepSeek AI

DeepSeek, a newcomer from China, has quickly gained attention for its cost efficiency and open-access philosophy. Unlike many established AI models, DeepSeek focuses on providing affordable AI access while maintaining strong reasoning capabilities, making it an appealing option for businesses and individual users alike. “DeepSeek R1 is one of the most amazing and impressive breakthroughs I’ve ever seen—and as open source, a profound gift to the world,” said Marc Andreessen, former software engineer and co-founder of Netscape.

Being an excellent choice for cost-conscious businesses, independent developers, and researchers who need a powerful yet affordable AI solution, DeepSeek is particularly suitable for startups, academic institutions, and enterprises that require strong reasoning and problem-solving capabilities without high operational costs. It is highly accessible for individuals due to its free web-based model, and even developers and enterprises benefit from its low-cost API. However, organizations requiring politically neutral AI models or strict privacy assurances may find it less suitable, especially in industries where data security and regulatory compliance are paramount.

The latest model, DeepSeek-R1, is designed for advanced reasoning tasks and is accessible through both an API and a chat interface. An earlier version, DeepSeek-V3, serves as the architectural foundation for the current releases, offering an extended context window of up to 128,000 tokens while being optimized for efficiency.

DeepSeek is free for individual users through its web interface, making it one of the most accessible AI models available. However, for business applications, API usage comes at a significantly lower cost than U.S. competitors, making it an attractive option for enterprises looking to reduce expenses. Reports indicate that DeepSeek’s training costs are drastically lower, with estimates suggesting it was trained for approximately $6 million, a fraction of the cost compared to competitors, whose training expenses can run into the tens or hundreds of millions.

One of DeepSeek’s biggest strengths is its cost efficiency. It allows businesses and developers to access powerful AI without the financial burden associated with models like OpenAI’s GPT-4 or Anthropic’s Claude. Its open-source approach further enhances its appeal, as it provides model weights and technical documentation under open licenses, encouraging transparency and community-driven improvements.

Additionally, its strong reasoning capabilities have been benchmarked against leading AI models, with DeepSeek-R1 rivaling OpenAI’s top-tier models in specific problem-solving tasks. As Anthropic co-founder Jack Clark wrote in his “Import AI” newsletter, “R1 is significant because it broadly matches OpenAI’s o1 model on a range of reasoning tasks and challenges the notion that Western AI companies hold a significant lead over Chinese ones.”

A notable problem with DeepSeek is that its response latency, especially during periods of high demand, makes it less ideal for real-time applications where speed is crucial. Censorship and bias are also potential concerns. DeepSeek aligns with local content regulations, meaning it may sanitize or avoid politically sensitive topics, which could limit its appeal in global markets. Additionally, some users have raised privacy concerns due to its Chinese ownership, questioning whether its data policies are as stringent as those of Western AI companies that comply with strict international privacy standards.

Microsoft’s Copilot

Microsoft’s Copilot is a productivity-focused AI assistant designed to enhance workplace efficiency through seamless integration with the Microsoft 365 suite. By embedding AI-powered automation directly into tools like Word, Excel, PowerPoint, Outlook, and Teams, Copilot serves as an intelligent assistant that streamlines workflows, automates repetitive tasks, and enhances document generation.

Ideal for businesses, enterprise teams, and professionals who heavily rely on Microsoft 365 applications for their daily operations, Microsoft’s Copilot is particularly beneficial for corporate professionals, financial analysts, project managers, and administrative staff who need AI-powered assistance to enhance productivity and reduce time spent on routine tasks. However, organizations that prefer open-source AI models or require flexible, cross-platform compatibility may find Copilot less suitable, especially if they rely on non-Microsoft software ecosystems for their workflows.

Microsoft 365 Copilot is available across Microsoft’s core productivity applications, providing AI-powered assistance for document creation, email drafting, data analysis, and meeting summarization. The service costs approximately $30 per user per month and typically requires an annual subscription. However, pricing can vary based on region and enterprise agreements, with some organizations receiving customized pricing based on their licensing structure.

One of Copilot’s most significant advantages is its deep ecosystem integration within Microsoft 365. For businesses and professionals already using Microsoft Office, Copilot enhances workflows by embedding AI-driven suggestions and automation directly within familiar applications. Its task automation capabilities are another significant benefit, helping users generate reports, summarize meetings, draft emails, and analyze data more efficiently. Furthermore, Copilot receives continuous updates backed by Microsoft’s substantial investments in AI and cloud computing, ensuring regular improvements in performance, accuracy, and feature expansion.

In contrast, one of the significant drawbacks of Microsoft’s Copilot is its ecosystem lock-in—Copilot is tightly coupled with Microsoft 365, meaning its full potential is only realized by organizations already invested in Microsoft’s software ecosystem. Limited flexibility is another concern, as it lacks extensive third-party integrations found in more open AI platforms, making customization difficult for businesses that rely on a broader range of tools. Additionally, some users report occasional response inconsistencies, where Copilot may lose context in long sessions or provide overly generic responses, requiring manual refinement.

Meta AI

Meta’s suite of AI tools, built on its open-weight LLaMA models, is a versatile and research-friendly AI suite designed for both general use and specialized applications. Meta’s approach prioritizes open-source development, accessibility, and integration with its social media platforms, making it a unique player in the AI landscape. It is ideal for developers, researchers, and AI enthusiasts who want free, open-source models that they can customize and fine-tune. It is also well-suited for businesses and brands leveraging Meta’s social platforms, as its AI can enhance customer interactions and content creation within apps like Instagram and WhatsApp.

Meta AI is highly accessible for developers and researchers due to its open-source availability and flexibility. However, businesses and casual users may find it less intuitive compared to AI models with more refined user-facing tools. Additionally, companies needing strong content moderation and regulatory compliance may prefer more tightly controlled AI systems from competitors like Microsoft or Anthropic.

Meta AI operates on a range of LLaMA models, including LLaMA 2 and LLaMA 3, which serve as the foundation for various applications. Specialized versions, such as Code Llama, are tailored for coding tasks, offering developers AI-powered assistance in programming.

One of Meta AI’s standout features is its open-source licensing, which makes many of its tools free for research and commercial use. However, enterprise users may encounter service-level agreements (SLAs) or indirect costs, especially when integrating Meta’s AI with proprietary systems or platform partnerships.

Meta AI’s biggest advantage is its open-source and customizable nature, allowing developers to fine-tune models for specific use cases. This fosters greater innovation, flexibility, and transparency compared to closed AI systems. Additionally, Meta AI is embedded within popular social media platforms like Facebook, Instagram, and WhatsApp, giving it massive consumer reach and real-time interactive capabilities. Meta also provides specialized AI models, such as Code Llama, for programming and catering to niche technical applications.

Despite its powerful underlying technology, Meta AI’s user interfaces and responsiveness can sometimes feel less polished than those of competitors like OpenAI and Microsoft. Additionally, Meta has faced controversies regarding content moderation and bias, raising concerns about AI-generated misinformation and regulatory scrutiny. Another challenge is ecosystem fragmentation; with multiple AI models and branding under Meta, navigating the differences between Meta AI, LLaMA, and other offerings can be confusing for both developers and general users.

AI’s Impact on the Future of Technology

As AI adoption grows, the energy demand for training and operating these models increases. Companies are developing more efficient AI models while managing infrastructure costs. Modern AI models, particularly those known as large language models (LLMs), are powerhouses that demand vast computational resources. Training these models involves running billions of calculations across highly specialized hardware over days, weeks, or even months.

The process is analogous to running an industrial factory non-stop—a feat that requires a tremendous amount of energy. The rise of AI assistants, automation, and multimodal capabilities will further shape industries, from customer support to content creation. “The worst thing you can do is have machines wasting power by being always on,” said James Coomer, senior vice president for products at DDN, a California-based software development firm, during the 2023 AI conference ai-PULSE.

AI competition will likely drive further advancements, leading to smarter, more accessible, and environmentally conscious AI solutions. However, challenges related to cost, data privacy, and ethical considerations will continue to shape the development of AI.

Sustainable AI and the Future

AI companies are actively addressing concerns about energy consumption and sustainability by optimizing their models to enhance efficiency while minimizing power usage. One key approach is leveraging renewable energy sources, such as solar and wind power, to supply data centers, which significantly reduces their carbon footprint. Additionally, advancements in hardware are being developed to support more energy-efficient AI computation, enabling systems to perform complex tasks with lower energy demands. These innovations not only help reduce environmental impact but also contribute to long-term cost savings for AI companies.

Beyond technological improvements, regulatory policies are being introduced to ensure AI growth aligns with environmental sustainability. Governments and industry leaders need to work together to establish guidelines that encourage responsible energy consumption while promoting research into eco-friendly AI solutions. However, the fear of governmental regulation often makes technology leaders hesitant to collaborate.

One voice at the forefront of global AI governance is Amandeep Singh Gill, the United Nations Secretary-General’s envoy on technology, who emphasizes the importance of collaborative governance in AI development—and sustainable development needs to be part of this cooperation and coordination.

“[W]e have to find ways to engage with those who are in the know,” he said in a September 2024 interview in Time. “Often, there’s a gap between technology developers and regulators, particularly when the private sector is in the lead. When it comes to diplomats and civil servants and leaders and ministers, there’s a further gap. How can you involve different stakeholders, the private sector in particular, in a way that influences action? You need to have a shared understanding.”

No matter the level of collaboration between the private and public sectors, companies need to aggressively explore emission-mitigation methods like carbon offset programs and energy-efficient algorithms to further mitigate their environmental impact. By integrating these strategies, the AI industry is making strides toward a more sustainable future without compromising innovation and progress.

Balancing Innovation and Responsibility

AI is advancing rapidly, with OpenAI, Google, Anthropic, DeepSeek, CoPilot, and MetaAI leading the way. While these models offer groundbreaking capabilities, they also come with costs, limitations, and sustainability concerns.

Businesses, researchers, and policymakers must prioritize responsible AI development while maintaining accessibility and efficiency. The Futurist: The AI (R)evolution panel discussion held by the Washington Post brought together industry leaders to explore the multifaceted impact of artificial intelligence (AI) on business, governance, and society. Martin Kon of Cohere explains that his role is securing AI for business with an emphasis on data privacy, which is essential for “critical infrastructure like banking, insurance, health care, government, energy, telco, etc.”

Because there’s no equivalent of Google Search for enterprises, AI, Kon says, is an invaluable tool in searching for needles in haystacks–but it’s complicated: “Every year, those haystacks get bigger, and every year, the needles get more valuable, but every enterprise’s haystacks are different. They’re data sources, and everyone cares about different needles.” He is, however, optimistic on the job front, maintaining that the new technology will create more jobs and greater value than many critics fear.

“Doctors, nurses, radiologists spend three and a half hours a day on admin. If you can get that done in 20 minutes, that’s three hours a day you’ve freed up of health care professionals. You’re not going to fire a third of them. They’re just going to have more time to treat patients, to train, to teach others, to sleep for the brain surgery tomorrow.”

May Habib, CEO of Writer, which builds AI models, is similarly optimistic, describing AI as “democratizing.” “All of these secret Einsteins in the company that didn’t have access to the tools to build can now build things that can be completely trajectory-changing for the business, and that’s the kind of vision that folks need to hear. And when folks hear that vision, they see a space and a part for themselves in it.”

Sy Choudhury, director of business development for AI Partnerships at Meta, sees a vital role for AI on the public sector side. “[I]t can be everything very mundane from logistics all the way to cybersecurity, all the way to your billing and making sure that you can talk to your state school when you’re applying for federal student–or student loans, that kind of thing.”

Rep. Jay Obernolte (R-CA), who led the House AI Task Force in 2024, acknowledges the need for “an institute to set standards for AI and to create testing and evaluation methodologies for AI” but emphasizes that “those standards should be non-compulsory…” And while agreeing that AI is “a very powerful tool,” he says that it’s still “just a tool,” adding that “if you concentrate on outcomes, you don’t have to worry as much about the tools…”

But some of those outcomes, he admits, can be adverse. “[O]ne example that I use a lot is the potential malicious use of AI for cyber fraud and cyber theft,” he says. “[I]n the pantheon of malicious uses of AI, that’s one of the ones that we at the task force worried the most about because we say bad actors are going to bad, and they’re going to bad more productively with AI than without AI because it’s such a powerful tool for enhancing productivity.”

Consumers can also do their part by managing AI usage wisely—turning off unused applications, optimizing workflows, and advocating for sustainable AI practices. AI’s future depends on balancing innovation with responsibility. The challenge is not just about creating smarter AI but also ensuring that its growth benefits society while minimizing its environmental impact.

About the author: Sharon Kumar is a technology editor at The Observatory, where he provides analysis and critical perspectives on the rapidly evolving tech landscape. As a seasoned MAANG tech professional with over a decade of experience in program management, strategic planning, and technology-driven business solutions, including AI and system performance optimization, Kumar has a deep understanding of emerging trends, digital infrastructure, and software development.
Software: This article was produced by The Observatory, a project of the Independent Media Institute.

Noticias

MidJourney V7 se lanza con la solicitud de voz y el modo de borrador más rápido: ¿por qué está recibiendo críticas mixtas?

Published

16 horas ago

4 abril, 2025

Sergio Villanueva

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

MidJourney, la startup con problemas de liquidez vistos por muchos usuarios de IA como el “estándar de oro” de la generación de imágenes de IA desde su lanzamiento en 2022, ahora ha introducido la versión muy esperada y más avanzada de su modelo generador, MidJourney V7.

La función principal es una nueva forma de pedirle al modelo que cree imágenes.

Anteriormente, los usuarios se limitaban a escribir indicaciones de texto y adjuntar otras imágenes para ayudar a las generaciones de guía (el modelo podría incorporar una variedad de imágenes adjuntas y adjuntas de los usuarios, incluidas otras generaciones MidJourney, para influir en el estilo y los temas de las nuevas generaciones).

Ahora, el usuario simplemente puede hablar en voz alta al sitio web Alpha de MidJourney (alfa.midjourney.com), siempre que tenga un micrófono en/on/adjunto a su computadora (o utilizando un dispositivo en red con entrada de audio, como auriculares o un teléfono inteligente).

No está claro si MidJourney creó o no un nuevo modelo de entrada de voz (habla a texto) desde cero o está utilizando una versión ajustada o lista para usar de otro de otro proveedor como ElevenLabs o OpenAI. Le pregunté al fundador de MidJourney, David Holz, en X, pero aún no ha respondido.

Uso de modo borrador y entrada de voz de conversación para indicar en un estado de flujo

Ir de la mano con este método de entrada es un nuevo “modo de borrador” que genera imágenes más rápidamente que MidJourney V6.1, la versión anterior más inmediata, a menudo en menos de un minuto o incluso 30 segundos en algunos casos.

Si bien las imágenes son inicialmente de menor calidad que V6.1, el usuario puede hacer clic en los botones “Mejorar” o “variar” ubicados a la derecha de cada generación para volver a renderizar el borrador con toda calidad.

La idea es que el usuario humano estará encantado de usar ambos juntos; de hecho, debe activarse “Modo de borrador” para activar la entrada de audio, para ingresar un estado de flujo más transparente de redacción creativa con el modelo, pasar menos tiempo en refinar el lenguaje específico de las indicaciones y más en ver las nuevas generaciones en tiempo real y ajustarlos o ajustarlos como es necesario más naturalmente y rápidamente hablando de los pensamientos fuera de los pensamientos fuera de los pensamientos fuera de las nuevas.

“Haga que este look sea más detallado, más oscuro, más claro, más realista, más cinético, más vibrante”, etc. son algunas de las instrucciones que el usuario podría proporcionar a través de la nueva interfaz de audio en respuesta a generaciones para producir nuevas y ajustadas que coincidan mejor con su visión creativa.

Comenzando con MidJourney V7

Para ingresar estos modos, comenzando con la nueva función de “borrador”, el usuario primero debe saltar a través de un nuevo obstáculo: la función de personalización de MidJourney.

Si bien esta característica se había introducido anteriormente en MidJourney V6 en junio de 2024, era opcional, lo que permitía al usuario crear un “estilo” personal que podría aplicarse a todas las generaciones en el futuro calificando 200 pares de imágenes (seleccionando que al usuario le gustaba mejor) a través del sitio web de Midjourney. El usuario podría alternar un estilo que coincidía con las imágenes que más les gustó durante el proceso de calificación por pares.

Ahora, MidJourney V7 requiere que los usuarios generen un nuevo estilo personalizado específico de V7 antes Incluso usarlo en absoluto en primer lugar.

Una vez que el usuario lo haga, aterrizará en el familiar tablero del sitio web de Midjourney Alpha, donde puede hacer clic en “Crear” desde el riel lateral izquierdo para abrir una pestaña de creación.

Luego, en la barra de entrada rápida en la parte superior, el usuario puede hacer clic en el nuevo botón “P” a la derecha de la barra para encender su modo de personalización.

El fundador y líder de MidJourney, David Holz, confirmó que VentureBeat en X también se podían seleccionar estilos de personalización más antiguos de V6, pero no las “tablas de humor” separadas, los estilos formados por colecciones de imágenes con suplotación de usuarios, aunque la cuenta X de MidJourney declaró que las funciones regresarán pronto. Sin embargo, no vi la oportunidad de seleccionar mi estilo V6 anterior.

No obstante, el usuario puede hacer clic en el nuevo botón “Modo de borrador” a la derecha del botón Personalización (también más a la derecha del cuadro de entrada de indicación del texto) para activar este modo de generación de imágenes más rápido.

Una vez que se haya seleccionado con el cursor, se volverá naranja, indicando que está activado, y luego un nuevo botón con un icono de micrófono debe aparecer a la derecha de este. Este es el modo de solicitación de voz, en el que el usuario puede hacer clic una vez más para activar.

Una vez que el usuario ha presionado este botón de micrófono para ingresar al modo de indicación de voz, debe ver que el icono del micrófono cambia de blanco a naranja para indicar que está activado, y una línea de forma de onda aparecerá a la derecha que debería comenzar a ondular a tiempo con el discurso del usuario.

El modelo podrá escucharlo y también debe escuchar cuando termine de hablar. En la práctica, a veces recibí un mensaje de error que decía “API en tiempo real desconectado”, pero detener y reiniciar el modo de entrada de voz y actualizar la página web generalmente la aclaraba rápidamente.

Después de unos segundos de hablar, MidJourney comenzará a flashear algunas ventanas de palabras clave debajo del cuadro de texto de entrada de inmediato en la parte superior y también generará un mensaje de texto completo a la derecha, ya que genera un nuevo conjunto de 4 imágenes basado en lo que dijo el usuario.

El usuario puede modificar aún más estas nuevas generaciones hablando con el modelo nuevamente, alternando y desactivando el modo de voz según sea necesario.

Aquí hay un video de demostración rápido de mí usando hoy para generar algunas imágenes de muestra. Verá que el proceso está lejos de ser perfecto, pero es realmente rápido y permite más de un estado interrumpido de indicación, refinación y recepción de imágenes del modelo.

Más características nuevas … pero también muchas características y limitaciones faltantes de V6/6.1

MidJourney V7 se lanza con dos modos operativos: turbo y relajarse. El modo Turbo proporciona un alto rendimiento al doble del costo de un trabajo V6 estándar, mientras que el modo borrador cuesta la mitad (en términos de trabajos). Un modo de velocidad estándar está actualmente en desarrollo y se lanzará una vez optimizado.

En el lanzamiento, las características como el aumento de la escala, la interpago y la retirada dependerán temporalmente del modelo V6. MidJourney planea hacer la transición de estas funciones a V7 en futuras actualizaciones.

La compañía se compromete con el desarrollo regular durante los próximos dos meses, con actualizaciones programadas cada una o dos semanas. Una próxima incorporación importante será un nuevo sistema de referencia de carácter y objetos diseñado específicamente para V7, características que se encuentran en versiones más antiguas de Midjourney aplicando sufijos de texto de texto arcano como –Cref y –Sref (para estilo) para atender el mensaje de texto de un usuario.

MidJourney planea involucrar a su comunidad a través de espacios de intercambio público y canales de retroalimentación, y organizará una sesión de clasificación de hoja de ruta para ayudar a priorizar futuros esfuerzos de desarrollo.

MidJourney enfatiza que V7 es un modelo completamente nuevo con sus propias fortalezas y desafíos. Se alienta a los usuarios a experimentar con diferentes estilos de inmediato e informar sus experiencias para ayudar a refinar la plataforma.

La reacción inicial es mixta … lejos de los elogios casi unánime de los lanzamientos anteriores de MidJourney

Si bien la mayoría de los lanzamientos más antiguos de mediana edad se encontraron con una abrumadora emoción y adulación, la recepción inicial a V7 es decididamente más mixta.

Aunque MidJourney tuvo cuidado de llamar a esto un lanzamiento de “alfa” en su blog y en las redes sociales, muchos usuarios aún esperaban un salto más grande en la calidad de imagen y la adherencia rápida (qué tan bien las generaciones de imágenes coincidían con las instrucciones específicas del usuario en el texto o el audio), y esperaban una comprensión anatómica humana mejorada (particularmente las manos, un problema de generación de imagen común) y la generación de textos (también los modelos de imagen de la imagen han tenido una mejor comprensión humana y se abren y se abren con la generación de imágenes de AI) y se han estrellado por algo, también algo de imagen de imagen. El generador de imágenes GPT-4O parece tenerlo mucho más consistentemente preciso que MidJourney V7 basado en los informes iniciales de los usuarios).

Como @Freiboitar escribió en X:

“Tengo que decirlo: un poco decepcionado.
OpenAi coloca el bar de cielo. ¿Habla con tu imagen Gen como si fuera tu hermano? Mente = soplado.

MJ7 se ve “más realista”. ¿Pero realmente necesitamos eso?
MJ + Magnific ya lo clavó.

Podría pausar mi sub tbh “.

“El problema es que V7 realmente no se siente como V7. Se siente más como V6.2”, publicó la fundadora de AI Magnific Javi Lopez en X, citando la naturaleza incremental aparente de las actualizaciones.

De hecho, Ethan Mollick, el profesor de la Escuela de Negocios de Pensilvania Wharton e Influencer de AI, también intervino para decir: “Me gustan sus nuevos lanzamientos, pero el problema con el nuevo V7 (derecha) lanzado hoy es que V6 (izquierda) ya era realmente bueno”.

“Las indicaciones idénticas de V6 son peores en V7”, escribió autodescrito “Maximalista de AI” David Shapiro en X.

“Todos los viejos favoritos que se están volviendo demasiado viejos”, dijo el artista y músico @Captainhahaa: “Las manos, el mensaje de texto siguen siendo un problema, sin CREF, SREFS se han vuelto locos. Pero está bien porque puedes hablar con él mientras te decepciona”.

Otros fueron más indulgentes y encantados con sus generaciones iniciales de prueba en V7, con el usuario de AI Power soñando a Tulpa diciendo en X que tenía “mejor calidad de imagen” y era “súper artística”.

Del mismo modo, la artista y diseñadora de IA Tatiana Tsiguleva expresó que MidJourney V7 era un “gran salto en calidad!”

Sin embargo, todavía son los primeros días para MidJourney V7, y la reacción inicial podría volver en cualquier dirección, ya sea adulación o frustración con el nuevo modelo y características de diseño. Por ahora, está disponible para cualquier persona con una cuenta de mediana edad para comenzar a usar.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.