Connect with us

Noticias

OpenAI lanza el modo de voz avanzado ChatGPT para usuarios web

Published

on

OpenAI ha ampliado la disponibilidad del modo de voz avanzado de ChatGPT, llevando la función a los navegadores web.

La introducción del modo de voz avanzado en la web fue anunciada por el director de producto de OpenAI, Kevin Weil, en la plataforma de redes sociales X.

Esta funcionalidad avanzada ahora es accesible para los suscriptores de los planes pagos de OpenAI, incluidos Plus, Enterprise, Teams o Edu.

Weil afirmó que la función, que aprovecha las capacidades de audio nativas de GPT-4 para conversaciones naturales en tiempo real, estaría disponible para los clientes de pago a partir de esta semana.

La medida se produce tras el lanzamiento exitoso de la misma función en aplicaciones de iOS y Android en septiembre de 2024.

Weil dijo que OpenAI planea lanzar la función para usuarios gratuitos en “las próximas semanas”.

Acceda a los perfiles de empresa más completos del mercado, impulsados ​​por GlobalData. Ahorre horas de investigación. Obtenga una ventaja competitiva.

Perfil de la empresa: muestra gratuita

¡Gracias!

Su correo electrónico de descarga llegará en breve

Confiamos en la calidad única de nuestros perfiles de empresa. Sin embargo, queremos que tome la decisión más beneficiosa para su negocio, por eso le ofrecemos una muestra gratuita que puede descargar enviando el siguiente formulario.

Por GlobalData






Visite nuestra Política de privacidad para obtener más información sobre nuestros servicios, cómo podemos usar, procesar y compartir sus datos personales, incluida información sobre sus derechos con respecto a sus datos personales y cómo puede darse de baja de futuras comunicaciones de marketing. Nuestros servicios están destinados a suscriptores corporativos y usted garantiza que la dirección de correo electrónico enviada es su dirección de correo electrónico corporativa.

En un comunicado de prensa sobre X, Weil dijo: “Lanzamos el modo de voz avanzado en nuestras aplicaciones de iOS y Android en septiembre, y recientemente lo llevamos a nuestras aplicaciones de escritorio”.

Weil añadió: “Ahora estamos entusiasmados de añadir la web a la mezcla. Esto significa que ahora puedes hablar con ChatGPT directamente desde tu navegador.

“Utilizo el modo de voz para explorar ideas y hacer preguntas rápidas sin tener que escribir. A @thirdweil y a los niños les encanta; siempre piden “hablar con ChatGPT” mientras conducimos. Y recientemente lo usé como traductor universal en Seúl y Tokio, manteniendo conversaciones de negocios con personas con las que no tenía un idioma común”.

En octubre de 2024, OpenAI introdujo la integración de búsqueda web en su chatbot de inteligencia artificial (IA) generativa ChatGPT.

Con la actualización, los suscriptores de ChatGPT Plus y Team tienen acceso a la información directamente a través de la interfaz de chat. Esto amplía las capacidades del bot más allá de sus limitaciones de datos históricos anteriores.


Continue Reading
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Noticias

10 mejores publicaciones en x

Published

on

Ha pasado menos de un día desde que Operai actualizó GPT-4O con capacidades avanzadas de generación de imágenes, e Internet ya está en un frenesí. Muchos usuarios han inundado las redes sociales con sus creaciones utilizando GPT-4O. La última oferta de OpenAI se ve como un salto tecnológico hacia adelante, y algunas salidas son notablemente impresionantes.

La nueva característica, denominada “Imágenes en ChatGPT”, difiere de Dall-E porque las imágenes se generan dentro de GPT-4O. Además, el modelo se ha descrito como “omnimodal”, lo que significa que puede generar varios tipos de datos, incluidas imágenes, texto, audio y video. Esto marca un cambio en el desarrollo de IA, donde los modelos obtienen la capacidad de integrar múltiples formas de datos sin problemas.

Si eres fanático de Ghibli Films, el último modelo GPT-4O de OpenAI puede generar algunas de las imágenes más importantes de Ghibli. Los usuarios simplemente necesitan cargar una imagen y pedirle al modelo que la transforme en el estilo de anime Ghibli. Dado que esta característica se hizo ampliamente conocida, numerosos usuarios han llevado a la plataforma para mostrar su creatividad.

La historia continúa debajo de este anuncio

Aquí hay un vistazo a algunas publicaciones notables en X:

Algunas películas legendarias de Bollywood como se ven en estilo Gibli.

El salto de Elon Musk a uno de los manifestantes del presidente Donald Trump antes de las elecciones presidenciales de los Estados Unidos de 2024.

Memes populares en estilo Gibli.

Más allá de las imágenes al estilo de Ghibli

La función de generación de imágenes muestra una versatilidad extraordinaria en los dominios creativos. Ofrece a los usuarios capacidades artísticas refinadas que les permiten transformar sus fotos en una variedad de estilos, incluidos South Park, Minecraft, LEGO, Voxel, acuarela, marioneta y animación de manguera de goma. Además, es excelente cuando se trata de diseño creativo, especialmente en la generación de infografías, maquetas de productos, logotipos, carteles, otros campos visuales, etc.

La representación de texto, que ha sido un desafío para los modelos de IA, es particularmente precisa con esta nueva característica, ya que ofrece elementos de texto detallados y precisos dentro de las salidas. Produce imágenes fotorrealistas con detalles excepcionales con iluminación realista, profundidad de campo, texturas complejas, etc. Estas capacidades también se extienden a la creación de imágenes hiperrealistas de animales, personas y varios escenarios del mundo real.

La parte más impresionante es el control que tiene sobre detalles sutiles, como expresiones faciales, accesorios, textura de la piel en una imagen. Incluso se puede agregar o eliminar elementos de fondo, editar imágenes existentes y transformar fotografías. Además, el generador de imágenes también puede realizar indicaciones complejas de generación de imágenes de varias partes, produciendo escenas surrealistas. El aspecto más notable del generador es su comprensión contextual y su flexibilidad creativa. Desde Polaroid hasta DSLR de alta resolución, el generador es capaz de crear varios estilos fotográficos.

La capacidad de generación de imágenes mejorada en ChatGPT, impulsada por GPT-4O, está disponible para usuarios Plus, Pro, Team y Free Free, también a través de API. A diferencia de Dall-E, las imágenes creadas con la versión actualizada no tienen una marca de agua visual.

¿Qué son las películas de Ghibli?

La historia continúa debajo de este anuncio

Las películas de Ghibli son largometrajes animados producidos por el estudio japonés del mismo nombre. Estas películas son conocidas por su estética distintiva, que complementan su narración de cuentos de vida. Mientras está profundamente arraigado en la cultura japonesa, exploran temas universales.

Studio Ghibli fue fundado en 1985 por el cineasta Hayao Miyazaki, junto con Isao Takahata y Toshio Suzuki. Miyazaki es uno de los nombres más reconocidos en la animación, con múltiples honores a su crédito. Aunque las películas de Ghibli son anime, el estudio se destaca por su romanticización de la vida cotidiana.

Algunas de las películas de Ghibli más populares incluyen a la princesa Mononoke (1997), Spirited Away (2001), Grave of the Fireflies (1988), Howl’s Moving Castle (2004), Porco Rosso (1992) y mi vecino Totoro (1988), entre otros. Su narración lúcida, configuraciones idílicas y personajes afables han fomentado un fandom devoto y duradero.

Con las capacidades avanzadas de generación de imágenes de Chatgpt, muchos fanáticos de las películas de Ghibli tienen la oportunidad de reinventar sus fotos en la estética similar a Gibli.

Continue Reading

Noticias

How ChatGPT, Gemini, Claude, And Others Are Shaping The Future Of Artificial Intelligence – Analysis – Eurasia Review

Published

on

The competition among top AI models is transforming how we work, create, and communicate. But as these systems grow smarter and more accessible, new questions emerge about cost, sustainability, and responsible development in a rapidly evolving landscape.

Artificial intelligence (AI) has seen rapid growth, transforming industries and daily life. From chatbots to advanced generative models, AI’s capabilities continue to expand, driven by powerful companies investing heavily in research and development. “The development of AI is as fundamental as the creation of the microprocessor, the personal computer, the Internet, and the mobile phone,” wrote Bill Gates in 2023. “It will change the way people work, learn, travel, get health care, and communicate with each other.”

In 2025, companies such as OpenAI, Google, Anthropic, and emerging challengers like DeepSeek have pushed the boundaries of what large language models (LLMs) can do. Moreover, corporate solutions from Microsoft and Meta are making AI tools more accessible to enterprises and developers alike. This article explores the latest AI models available to the public, their advantages and drawbacks, and how they compare in the competitive AI landscape.

The Power and Performance of AI Models

AI models rely on extensive computational resources, particularly large language models (LLMs) that require vast datasets and processing power. The leading AI models undergo complex training procedures that involve billions of parameters, consuming significant energy and infrastructure.

Key AI players invest in cutting-edge hardware and optimization strategies to improve efficiency while maintaining high performance. The balance between computational power, speed, and affordability is a significant factor in differentiating these AI models.

The Competitive Landscape: Top AI Models

OpenAI’s ChatGPT

ChatGPT, developed by OpenAI, is one of the most recognizable and widely used AI models in the world. Built with a dialogue-driven format, ChatGPT is designed to answer follow-up questions, challenge incorrect premises, admit mistakes, and reject inappropriate requests. Its versatility has made it a leading AI tool for both casual and professional use, spanning industries such as customer service, content creation, programming, and research.

ChatGPT is ideal for a wide range of users, including writers, business professionals, educators, developers, and researchers. Its free-tier accessibility makes it an excellent starting point for casual users, while businesses, content creators, and developers can leverage its advanced models for enhanced productivity and automation.

It is also among the most user-friendly AI models available, featuring a clean interface, intuitive responses, and seamless interaction across devices. However, organizations that require custom AI models or stricter data privacy controls may find its closed-source nature restrictive, particularly compared to open-source alternatives like Meta’s LLaMA.

The latest version, GPT-4o, is available for free-tier users and offers a strong balance of speed, reasoning, and text generation capabilities. For users seeking enhanced performance, ChatGPT Plus provides priority access and faster response times at a monthly subscription cost.

For professionals and businesses requiring more robust capabilities, ChatGPT Pro unlocks advanced reasoning features through the o1 pro mode, which includes enhanced voice functionality and improved performance on complex queries.

Developers looking to integrate ChatGPT into applications can access its API, a type of software interface. Pricing starts at approximately $0.15 per million input tokens and $0.60 per million output tokens for GPT-4o mini, while the more powerful o1 models come at a higher cost. A token is defined as a fundamental unit of data, like a word or subword, that an AI model processes to understand and generate text.

One of ChatGPT’s greatest strengths is its versatility and conversational memory. It can handle a broad range of tasks, from casual conversation and creative writing to technical problem-solving, coding assistance, and business automation. When memory is enabled, ChatGPT can retain context across interactions, allowing for a more personalized user experience.

Another key advantage is its proven user base—with hundreds of millions of users worldwide, ChatGPT has undergone continuous refinement based on real-world feedback, improving its accuracy and usability. Additionally, GPT-4o’s multimodal capabilities allow it to process text, images, audio, and video, making it a comprehensive AI tool for content creation, analysis, and customer engagement.

While a free version exists, the most powerful features require paid subscriptions, which may limit accessibility for smaller businesses, independent developers, and startups. Another drawback is an occasional lag in real-time updates; even though ChatGPT has web-browsing capabilities, it may struggle with the most recent or fast-changing information. Lastly, its proprietary model means users have limited control over modifications or customization, as they must adhere to OpenAI’s data policies and content restrictions.

Google’s Gemini

Google’s Gemini series is renowned for its multimodal capabilities and its ability to handle extensive context, making it a versatile tool for both personal and enterprise-level applications.

General consumers and productivity users benefit from Gemini’s deep integration with Google Search, Gmail, Docs, and Assistant, making it an excellent tool for research, email drafting, and task automation. Business and enterprise users find value in Gemini’s integration with Google Workspace, enhancing collaboration across Drive, Sheets, and Meet. Developers and AI researchers can leverage its capabilities through Google Cloud and Vertex AI, making it a strong choice for building AI applications and custom models. Creative professionals can take advantage of its multimodal abilities, working with text, images, and video. Meanwhile, students and educators benefit from Gemini’s ability to summarize, explain concepts, and assist with research, making it a powerful academic tool.

Google Gemini is highly accessible, especially for those already familiar with Google services. Its seamless integration across Google’s ecosystem allows for effortless adoption in both personal and business applications. Casual users will find it intuitive, with real-time search enhancements and natural interactions that require little to no learning curve. Developers and AI researchers can unlock advanced customization through API access and cloud-based features, though utilizing these tools effectively may require technical expertise.

The current versions, Gemini 1.5 Flash and Pro, cater to different needs, with Flash offering a cost-efficient, distilled option and Pro providing higher performance. Meanwhile, the Gemini 2.0 series, designed primarily for enterprise use, includes experimental models like Gemini 2.0 Flash with enhanced speed and multimodal live APIs, as well as the more powerful Gemini 2.0 Pro.

Basic access to Gemini is often free or available through Google Cloud’s Vertex AI. Still, advanced usage, especially when integrated into enterprise solutions, was introduced at $19.99–$25 per month per user, with pricing adjusted to reflect added features like a 1-million-token context window.

Gemini’s main advantage over other AIs is that it excels in processing text, images, audio, and video simultaneously, making it a standout in multimodal mastery. It also integrates seamlessly with Google Workspace, Gmail, and Android devices, making it a natural fit for users already in the Google ecosystem. Additionally, it offers competitive pricing for developers and enterprises needing robust capabilities, especially in extended context handling.

However, Gemini’s performance can be inconsistent, particularly with rare languages or specialized queries. Some advanced versions may be limited by safety testing, delaying wider access. Furthermore, its deep integration with Google’s ecosystem can be a barrier for users outside that environment, making adoption more challenging.

Anthropic’s Claude

Anthropic’s Claude is known for its emphasis on safety, natural conversational flow, and long-form contextual understanding. It is particularly well-suited for users who prioritize ethical AI usage and structured collaboration in their workflows.

Researchers and academics who need long-form contextual retention and minimal hallucinations, as well as writers and content creators who benefit from its structured approach and accuracy, will find Claude an essential and beneficial AI assistant. Business professionals and teams can leverage Claude’s “Projects” feature for task and document management, while educators and students will find its safety guardrails and clear responses ideal for learning support.

Because Claude is highly accessible for those seeking a structured, ethical AI with a strong contextual understanding, it is moderately suitable for creative users who may find its restrictive filters limiting and less ideal for those needing unrestricted, fast brainstorming tools or AI-generated content with minimal moderation.

Claude 3.5 Sonnet, on the other hand, is the flagship model, offering enhanced reasoning, speed, and contextual understanding for both individual and enterprise users. For businesses and teams, the Claude Team and Enterprise Plans start at approximately $25 per user per month (billed annually), providing advanced collaboration features. Individual users can access Claude Pro, a premium plan that costs around $20 per month, offering expanded capabilities and priority access. A limited free tier is also available, allowing general users to explore basic features and test its functionality.

Unlike most AIs, Claude excels in ethical AI safety, extended conversational memory, and structured project management, making it ideal for users who require reliable and well-moderated AI assistance. Its intuitive interface and organization tools enhance productivity for writers, researchers, educators, and business professionals.

However, there are instances when availability constraints during peak hours can disrupt workflow efficiency. Claude’s strict safety filters, while preventing harmful content, sometimes limit creative flexibility, making it less suitable for highly experimental or unrestricted brainstorming sessions. Additionally, enterprise costs may be high for large-scale teams with extensive AI usage.

DeepSeek AI

DeepSeek, a newcomer from China, has quickly gained attention for its cost efficiency and open-access philosophy. Unlike many established AI models, DeepSeek focuses on providing affordable AI access while maintaining strong reasoning capabilities, making it an appealing option for businesses and individual users alike. DeepSeek R1 is one of the most amazing and impressive breakthroughs I’ve ever seen—and as open source, a profound gift to the world,” said Marc Andreessen, former software engineer and co-founder of Netscape.

Being an excellent choice for cost-conscious businesses, independent developers, and researchers who need a powerful yet affordable AI solution, DeepSeek is particularly suitable for startups, academic institutions, and enterprises that require strong reasoning and problem-solving capabilities without high operational costs. It is highly accessible for individuals due to its free web-based model, and even developers and enterprises benefit from its low-cost API. However, organizations requiring politically neutral AI models or strict privacy assurances may find it less suitable, especially in industries where data security and regulatory compliance are paramount.

The latest model, DeepSeek-R1, is designed for advanced reasoning tasks and is accessible through both an API and a chat interface. An earlier version, DeepSeek-V3, serves as the architectural foundation for the current releases, offering an extended context window of up to 128,000 tokens while being optimized for efficiency.

DeepSeek is free for individual users through its web interface, making it one of the most accessible AI models available. However, for business applications, API usage comes at a significantly lower cost than U.S. competitors, making it an attractive option for enterprises looking to reduce expenses. Reports indicate that DeepSeek’s training costs are drastically lower, with estimates suggesting it was trained for approximately $6 million, a fraction of the cost compared to competitors, whose training expenses can run into the tens or hundreds of millions.

One of DeepSeek’s biggest strengths is its cost efficiency. It allows businesses and developers to access powerful AI without the financial burden associated with models like OpenAI’s GPT-4 or Anthropic’s Claude. Its open-source approach further enhances its appeal, as it provides model weights and technical documentation under open licenses, encouraging transparency and community-driven improvements.

Additionally, its strong reasoning capabilities have been benchmarked against leading AI models, with DeepSeek-R1 rivaling OpenAI’s top-tier models in specific problem-solving tasks. As Anthropic co-founder Jack Clark wrote in his “Import AI” newsletter, “R1 is significant because it broadly matches OpenAI’s o1 model on a range of reasoning tasks and challenges the notion that Western AI companies hold a significant lead over Chinese ones.”

A notable problem with DeepSeek is that its response latency, especially during periods of high demand, makes it less ideal for real-time applications where speed is crucial. Censorship and bias are also potential concerns. DeepSeek aligns with local content regulations, meaning it may sanitize or avoid politically sensitive topics, which could limit its appeal in global markets. Additionally, some users have raised privacy concerns due to its Chinese ownership, questioning whether its data policies are as stringent as those of Western AI companies that comply with strict international privacy standards.

Microsoft’s Copilot

Microsoft’s Copilot is a productivity-focused AI assistant designed to enhance workplace efficiency through seamless integration with the Microsoft 365 suite. By embedding AI-powered automation directly into tools like Word, Excel, PowerPoint, Outlook, and Teams, Copilot serves as an intelligent assistant that streamlines workflows, automates repetitive tasks, and enhances document generation.

Ideal for businesses, enterprise teams, and professionals who heavily rely on Microsoft 365 applications for their daily operations, Microsoft’s Copilot is particularly beneficial for corporate professionals, financial analysts, project managers, and administrative staff who need AI-powered assistance to enhance productivity and reduce time spent on routine tasks. However, organizations that prefer open-source AI models or require flexible, cross-platform compatibility may find Copilot less suitable, especially if they rely on non-Microsoft software ecosystems for their workflows.

Microsoft 365 Copilot is available across Microsoft’s core productivity applications, providing AI-powered assistance for document creation, email drafting, data analysis, and meeting summarization. The service costs approximately $30 per user per month and typically requires an annual subscription. However, pricing can vary based on region and enterprise agreements, with some organizations receiving customized pricing based on their licensing structure.

One of Copilot’s most significant advantages is its deep ecosystem integration within Microsoft 365. For businesses and professionals already using Microsoft Office, Copilot enhances workflows by embedding AI-driven suggestions and automation directly within familiar applications. Its task automation capabilities are another significant benefit, helping users generate reports, summarize meetings, draft emails, and analyze data more efficiently. Furthermore, Copilot receives continuous updates backed by Microsoft’s substantial investments in AI and cloud computing, ensuring regular improvements in performance, accuracy, and feature expansion.

In contrast, one of the significant drawbacks of Microsoft’s Copilot is its ecosystem lock-in—Copilot is tightly coupled with Microsoft 365, meaning its full potential is only realized by organizations already invested in Microsoft’s software ecosystem. Limited flexibility is another concern, as it lacks extensive third-party integrations found in more open AI platforms, making customization difficult for businesses that rely on a broader range of tools. Additionally, some users report occasional response inconsistencies, where Copilot may lose context in long sessions or provide overly generic responses, requiring manual refinement.

Meta AI

Meta’s suite of AI tools, built on its open-weight LLaMA models, is a versatile and research-friendly AI suite designed for both general use and specialized applications. Meta’s approach prioritizes open-source development, accessibility, and integration with its social media platforms, making it a unique player in the AI landscape. It is ideal for developers, researchers, and AI enthusiasts who want free, open-source models that they can customize and fine-tune. It is also well-suited for businesses and brands leveraging Meta’s social platforms, as its AI can enhance customer interactions and content creation within apps like Instagram and WhatsApp.

Meta AI is highly accessible for developers and researchers due to its open-source availability and flexibility. However, businesses and casual users may find it less intuitive compared to AI models with more refined user-facing tools. Additionally, companies needing strong content moderation and regulatory compliance may prefer more tightly controlled AI systems from competitors like Microsoft or Anthropic.

Meta AI operates on a range of LLaMA models, including LLaMA 2 and LLaMA 3, which serve as the foundation for various applications. Specialized versions, such as Code Llama, are tailored for coding tasks, offering developers AI-powered assistance in programming.

One of Meta AI’s standout features is its open-source licensing, which makes many of its tools free for research and commercial use. However, enterprise users may encounter service-level agreements (SLAs) or indirect costs, especially when integrating Meta’s AI with proprietary systems or platform partnerships.

Meta AI’s biggest advantage is its open-source and customizable nature, allowing developers to fine-tune models for specific use cases. This fosters greater innovation, flexibility, and transparency compared to closed AI systems. Additionally, Meta AI is embedded within popular social media platforms like Facebook, Instagram, and WhatsApp, giving it massive consumer reach and real-time interactive capabilities. Meta also provides specialized AI models, such as Code Llama, for programming and catering to niche technical applications.

Despite its powerful underlying technology, Meta AI’s user interfaces and responsiveness can sometimes feel less polished than those of competitors like OpenAI and Microsoft. Additionally, Meta has faced controversies regarding content moderation and bias, raising concerns about AI-generated misinformation and regulatory scrutiny. Another challenge is ecosystem fragmentation; with multiple AI models and branding under Meta, navigating the differences between Meta AI, LLaMA, and other offerings can be confusing for both developers and general users.

AI’s Impact on the Future of Technology

As AI adoption grows, the energy demand for training and operating these models increases. Companies are developing more efficient AI models while managing infrastructure costs. Modern AI models, particularly those known as large language models (LLMs), are powerhouses that demand vast computational resources. Training these models involves running billions of calculations across highly specialized hardware over days, weeks, or even months.

The process is analogous to running an industrial factory non-stop—a feat that requires a tremendous amount of energy. The rise of AI assistants, automation, and multimodal capabilities will further shape industries, from customer support to content creation. “The worst thing you can do is have machines wasting power by being always on,” said James Coomer, senior vice president for products at DDN, a California-based software development firm, during the 2023 AI conference ai-PULSE.

AI competition will likely drive further advancements, leading to smarter, more accessible, and environmentally conscious AI solutions. However, challenges related to cost, data privacy, and ethical considerations will continue to shape the development of AI.

Sustainable AI and the Future

AI companies are actively addressing concerns about energy consumption and sustainability by optimizing their models to enhance efficiency while minimizing power usage. One key approach is leveraging renewable energy sources, such as solar and wind power, to supply data centers, which significantly reduces their carbon footprint. Additionally, advancements in hardware are being developed to support more energy-efficient AI computation, enabling systems to perform complex tasks with lower energy demands. These innovations not only help reduce environmental impact but also contribute to long-term cost savings for AI companies.

Beyond technological improvements, regulatory policies are being introduced to ensure AI growth aligns with environmental sustainability. Governments and industry leaders need to work together to establish guidelines that encourage responsible energy consumption while promoting research into eco-friendly AI solutions. However, the fear of governmental regulation often makes technology leaders hesitant to collaborate.

One voice at the forefront of global AI governance is Amandeep Singh Gill, the United Nations Secretary-General’s envoy on technology, who emphasizes the importance of collaborative governance in AI development—and sustainable development needs to be part of this cooperation and coordination.

“[W]e have to find ways to engage with those who are in the know,” he said in a September 2024 interview in Time. “Often, there’s a gap between technology developers and regulators, particularly when the private sector is in the lead. When it comes to diplomats and civil servants and leaders and ministers, there’s a further gap. How can you involve different stakeholders, the private sector in particular, in a way that influences action? You need to have a shared understanding.”

No matter the level of collaboration between the private and public sectors, companies need to aggressively explore emission-mitigation methods like carbon offset programs and energy-efficient algorithms to further mitigate their environmental impact. By integrating these strategies, the AI industry is making strides toward a more sustainable future without compromising innovation and progress.

Balancing Innovation and Responsibility

AI is advancing rapidly, with OpenAI, Google, Anthropic, DeepSeek, CoPilot, and MetaAI leading the way. While these models offer groundbreaking capabilities, they also come with costs, limitations, and sustainability concerns.

Businesses, researchers, and policymakers must prioritize responsible AI development while maintaining accessibility and efficiency. The Futurist: The AI (R)evolution panel discussion held by the Washington Post brought together industry leaders to explore the multifaceted impact of artificial intelligence (AI) on business, governance, and society. Martin Kon of Cohere explains that his role is securing AI for business with an emphasis on data privacy, which is essential for “critical infrastructure like banking, insurance, health care, government, energy, telco, etc.”

Because there’s no equivalent of Google Search for enterprises, AI, Kon says, is an invaluable tool in searching for needles in haystacks–but it’s complicated: “Every year, those haystacks get bigger, and every year, the needles get more valuable, but every enterprise’s haystacks are different. They’re data sources, and everyone cares about different needles.” He is, however, optimistic on the job front, maintaining that the new technology will create more jobs and greater value than many critics fear.

“Doctors, nurses, radiologists spend three and a half hours a day on admin. If you can get that done in 20 minutes, that’s three hours a day you’ve freed up of health care professionals. You’re not going to fire a third of them. They’re just going to have more time to treat patients, to train, to teach others, to sleep for the brain surgery tomorrow.”

May Habib, CEO of Writer, which builds AI models, is similarly optimistic, describing AI as “democratizing.” “All of these secret Einsteins in the company that didn’t have access to the tools to build can now build things that can be completely trajectory-changing for the business, and that’s the kind of vision that folks need to hear. And when folks hear that vision, they see a space and a part for themselves in it.”

Sy Choudhury, director of business development for AI Partnerships at Meta, sees a vital role for AI on the public sector side. “[I]t can be everything very mundane from logistics all the way to cybersecurity, all the way to your billing and making sure that you can talk to your state school when you’re applying for federal student–or student loans, that kind of thing.”

Rep. Jay Obernolte (R-CA), who led the House AI Task Force in 2024, acknowledges the need for “an institute to set standards for AI and to create testing and evaluation methodologies for AI” but emphasizes that “those standards should be non-compulsory…” And while agreeing that AI is “a very powerful tool,” he says that it’s still “just a tool,” adding that “if you concentrate on outcomes, you don’t have to worry as much about the tools…”

But some of those outcomes, he admits, can be adverse. “[O]ne example that I use a lot is the potential malicious use of AI for cyber fraud and cyber theft,” he says. “[I]n the pantheon of malicious uses of AI, that’s one of the ones that we at the task force worried the most about because we say bad actors are going to bad, and they’re going to bad more productively with AI than without AI because it’s such a powerful tool for enhancing productivity.”

Consumers can also do their part by managing AI usage wisely—turning off unused applications, optimizing workflows, and advocating for sustainable AI practices. AI’s future depends on balancing innovation with responsibility. The challenge is not just about creating smarter AI but also ensuring that its growth benefits society while minimizing its environmental impact.

  • About the author: Sharon Kumar is a technology editor at The Observatory, where he provides analysis and critical perspectives on the rapidly evolving tech landscape. As a seasoned MAANG tech professional with over a decade of experience in program management, strategic planning, and technology-driven business solutions, including AI and system performance optimization, Kumar has a deep understanding of emerging trends, digital infrastructure, and software development.
  • Software: This article was produced by The Observatory, a project of the Independent Media Institute.
Continue Reading

Noticias

MidJourney V7 se lanza con la solicitud de voz y el modo de borrador más rápido: ¿por qué está recibiendo críticas mixtas?

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


MidJourney, la startup con problemas de liquidez vistos por muchos usuarios de IA como el “estándar de oro” de la generación de imágenes de IA desde su lanzamiento en 2022, ahora ha introducido la versión muy esperada y más avanzada de su modelo generador, MidJourney V7.

La función principal es una nueva forma de pedirle al modelo que cree imágenes.

Anteriormente, los usuarios se limitaban a escribir indicaciones de texto y adjuntar otras imágenes para ayudar a las generaciones de guía (el modelo podría incorporar una variedad de imágenes adjuntas y adjuntas de los usuarios, incluidas otras generaciones MidJourney, para influir en el estilo y los temas de las nuevas generaciones).

Ahora, el usuario simplemente puede hablar en voz alta al sitio web Alpha de MidJourney (alfa.midjourney.com), siempre que tenga un micrófono en/on/adjunto a su computadora (o utilizando un dispositivo en red con entrada de audio, como auriculares o un teléfono inteligente).

No está claro si MidJourney creó o no un nuevo modelo de entrada de voz (habla a texto) desde cero o está utilizando una versión ajustada o lista para usar de otro de otro proveedor como ElevenLabs o OpenAI. Le pregunté al fundador de MidJourney, David Holz, en X, pero aún no ha respondido.

Uso de modo borrador y entrada de voz de conversación para indicar en un estado de flujo

Ir de la mano con este método de entrada es un nuevo “modo de borrador” que genera imágenes más rápidamente que MidJourney V6.1, la versión anterior más inmediata, a menudo en menos de un minuto o incluso 30 segundos en algunos casos.

Si bien las imágenes son inicialmente de menor calidad que V6.1, el usuario puede hacer clic en los botones “Mejorar” o “variar” ubicados a la derecha de cada generación para volver a renderizar el borrador con toda calidad.

La idea es que el usuario humano estará encantado de usar ambos juntos; de hecho, debe activarse “Modo de borrador” para activar la entrada de audio, para ingresar un estado de flujo más transparente de redacción creativa con el modelo, pasar menos tiempo en refinar el lenguaje específico de las indicaciones y más en ver las nuevas generaciones en tiempo real y ajustarlos o ajustarlos como es necesario más naturalmente y rápidamente hablando de los pensamientos fuera de los pensamientos fuera de los pensamientos fuera de las nuevas.

“Haga que este look sea más detallado, más oscuro, más claro, más realista, más cinético, más vibrante”, etc. son algunas de las instrucciones que el usuario podría proporcionar a través de la nueva interfaz de audio en respuesta a generaciones para producir nuevas y ajustadas que coincidan mejor con su visión creativa.

Comenzando con MidJourney V7

Para ingresar estos modos, comenzando con la nueva función de “borrador”, el usuario primero debe saltar a través de un nuevo obstáculo: la función de personalización de MidJourney.

Si bien esta característica se había introducido anteriormente en MidJourney V6 en junio de 2024, era opcional, lo que permitía al usuario crear un “estilo” personal que podría aplicarse a todas las generaciones en el futuro calificando 200 pares de imágenes (seleccionando que al usuario le gustaba mejor) a través del sitio web de Midjourney. El usuario podría alternar un estilo que coincidía con las imágenes que más les gustó durante el proceso de calificación por pares.

Ahora, MidJourney V7 requiere que los usuarios generen un nuevo estilo personalizado específico de V7 antes Incluso usarlo en absoluto en primer lugar.

Una vez que el usuario lo haga, aterrizará en el familiar tablero del sitio web de Midjourney Alpha, donde puede hacer clic en “Crear” desde el riel lateral izquierdo para abrir una pestaña de creación.

Luego, en la barra de entrada rápida en la parte superior, el usuario puede hacer clic en el nuevo botón “P” a la derecha de la barra para encender su modo de personalización.

El fundador y líder de MidJourney, David Holz, confirmó que VentureBeat en X también se podían seleccionar estilos de personalización más antiguos de V6, pero no las “tablas de humor” separadas, los estilos formados por colecciones de imágenes con suplotación de usuarios, aunque la cuenta X de MidJourney declaró que las funciones regresarán pronto. Sin embargo, no vi la oportunidad de seleccionar mi estilo V6 anterior.

No obstante, el usuario puede hacer clic en el nuevo botón “Modo de borrador” a la derecha del botón Personalización (también más a la derecha del cuadro de entrada de indicación del texto) para activar este modo de generación de imágenes más rápido.

Una vez que se haya seleccionado con el cursor, se volverá naranja, indicando que está activado, y luego un nuevo botón con un icono de micrófono debe aparecer a la derecha de este. Este es el modo de solicitación de voz, en el que el usuario puede hacer clic una vez más para activar.

Una vez que el usuario ha presionado este botón de micrófono para ingresar al modo de indicación de voz, debe ver que el icono del micrófono cambia de blanco a naranja para indicar que está activado, y una línea de forma de onda aparecerá a la derecha que debería comenzar a ondular a tiempo con el discurso del usuario.

El modelo podrá escucharlo y también debe escuchar cuando termine de hablar. En la práctica, a veces recibí un mensaje de error que decía “API en tiempo real desconectado”, pero detener y reiniciar el modo de entrada de voz y actualizar la página web generalmente la aclaraba rápidamente.

Después de unos segundos de hablar, MidJourney comenzará a flashear algunas ventanas de palabras clave debajo del cuadro de texto de entrada de inmediato en la parte superior y también generará un mensaje de texto completo a la derecha, ya que genera un nuevo conjunto de 4 imágenes basado en lo que dijo el usuario.

El usuario puede modificar aún más estas nuevas generaciones hablando con el modelo nuevamente, alternando y desactivando el modo de voz según sea necesario.

Aquí hay un video de demostración rápido de mí usando hoy para generar algunas imágenes de muestra. Verá que el proceso está lejos de ser perfecto, pero es realmente rápido y permite más de un estado interrumpido de indicación, refinación y recepción de imágenes del modelo.

Más características nuevas … pero también muchas características y limitaciones faltantes de V6/6.1

MidJourney V7 se lanza con dos modos operativos: turbo y relajarse. El modo Turbo proporciona un alto rendimiento al doble del costo de un trabajo V6 estándar, mientras que el modo borrador cuesta la mitad (en términos de trabajos). Un modo de velocidad estándar está actualmente en desarrollo y se lanzará una vez optimizado.

En el lanzamiento, las características como el aumento de la escala, la interpago y la retirada dependerán temporalmente del modelo V6. MidJourney planea hacer la transición de estas funciones a V7 en futuras actualizaciones.

La compañía se compromete con el desarrollo regular durante los próximos dos meses, con actualizaciones programadas cada una o dos semanas. Una próxima incorporación importante será un nuevo sistema de referencia de carácter y objetos diseñado específicamente para V7, características que se encuentran en versiones más antiguas de Midjourney aplicando sufijos de texto de texto arcano como –Cref y –Sref (para estilo) para atender el mensaje de texto de un usuario.

MidJourney planea involucrar a su comunidad a través de espacios de intercambio público y canales de retroalimentación, y organizará una sesión de clasificación de hoja de ruta para ayudar a priorizar futuros esfuerzos de desarrollo.

MidJourney enfatiza que V7 es un modelo completamente nuevo con sus propias fortalezas y desafíos. Se alienta a los usuarios a experimentar con diferentes estilos de inmediato e informar sus experiencias para ayudar a refinar la plataforma.

La reacción inicial es mixta … lejos de los elogios casi unánime de los lanzamientos anteriores de MidJourney

Si bien la mayoría de los lanzamientos más antiguos de mediana edad se encontraron con una abrumadora emoción y adulación, la recepción inicial a V7 es decididamente más mixta.

Aunque MidJourney tuvo cuidado de llamar a esto un lanzamiento de “alfa” en su blog y en las redes sociales, muchos usuarios aún esperaban un salto más grande en la calidad de imagen y la adherencia rápida (qué tan bien las generaciones de imágenes coincidían con las instrucciones específicas del usuario en el texto o el audio), y esperaban una comprensión anatómica humana mejorada (particularmente las manos, un problema de generación de imagen común) y la generación de textos (también los modelos de imagen de la imagen han tenido una mejor comprensión humana y se abren y se abren con la generación de imágenes de AI) y se han estrellado por algo, también algo de imagen de imagen. El generador de imágenes GPT-4O parece tenerlo mucho más consistentemente preciso que MidJourney V7 basado en los informes iniciales de los usuarios).

Como @Freiboitar escribió en X:

“Tengo que decirlo: un poco decepcionado.
OpenAi coloca el bar de cielo. ¿Habla con tu imagen Gen como si fuera tu hermano? Mente = soplado.

MJ7 se ve “más realista”. ¿Pero realmente necesitamos eso?
MJ + Magnific ya lo clavó.

Podría pausar mi sub tbh “.

“El problema es que V7 realmente no se siente como V7. Se siente más como V6.2”, publicó la fundadora de AI Magnific Javi Lopez en X, citando la naturaleza incremental aparente de las actualizaciones.

De hecho, Ethan Mollick, el profesor de la Escuela de Negocios de Pensilvania Wharton e Influencer de AI, también intervino para decir: “Me gustan sus nuevos lanzamientos, pero el problema con el nuevo V7 (derecha) lanzado hoy es que V6 (izquierda) ya era realmente bueno”.

“Las indicaciones idénticas de V6 son peores en V7”, escribió autodescrito “Maximalista de AI” David Shapiro en X.

“Todos los viejos favoritos que se están volviendo demasiado viejos”, dijo el artista y músico @Captainhahaa: “Las manos, el mensaje de texto siguen siendo un problema, sin CREF, SREFS se han vuelto locos. Pero está bien porque puedes hablar con él mientras te decepciona”.

Otros fueron más indulgentes y encantados con sus generaciones iniciales de prueba en V7, con el usuario de AI Power soñando a Tulpa diciendo en X que tenía “mejor calidad de imagen” y era “súper artística”.

Del mismo modo, la artista y diseñadora de IA Tatiana Tsiguleva expresó que MidJourney V7 era un “gran salto en calidad!”

Sin embargo, todavía son los primeros días para MidJourney V7, y la reacción inicial podría volver en cualquier dirección, ya sea adulación o frustración con el nuevo modelo y características de diseño. Por ahora, está disponible para cualquier persona con una cuenta de mediana edad para comenzar a usar.

Continue Reading

Trending