Noticias

MidJourney V7 se lanza con la solicitud de voz y el modo de borrador más rápido: ¿por qué está recibiendo críticas mixtas?

Published

on

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


MidJourney, la startup con problemas de liquidez vistos por muchos usuarios de IA como el “estándar de oro” de la generación de imágenes de IA desde su lanzamiento en 2022, ahora ha introducido la versión muy esperada y más avanzada de su modelo generador, MidJourney V7.

La función principal es una nueva forma de pedirle al modelo que cree imágenes.

Anteriormente, los usuarios se limitaban a escribir indicaciones de texto y adjuntar otras imágenes para ayudar a las generaciones de guía (el modelo podría incorporar una variedad de imágenes adjuntas y adjuntas de los usuarios, incluidas otras generaciones MidJourney, para influir en el estilo y los temas de las nuevas generaciones).

Ahora, el usuario simplemente puede hablar en voz alta al sitio web Alpha de MidJourney (alfa.midjourney.com), siempre que tenga un micrófono en/on/adjunto a su computadora (o utilizando un dispositivo en red con entrada de audio, como auriculares o un teléfono inteligente).

No está claro si MidJourney creó o no un nuevo modelo de entrada de voz (habla a texto) desde cero o está utilizando una versión ajustada o lista para usar de otro de otro proveedor como ElevenLabs o OpenAI. Le pregunté al fundador de MidJourney, David Holz, en X, pero aún no ha respondido.

Uso de modo borrador y entrada de voz de conversación para indicar en un estado de flujo

Ir de la mano con este método de entrada es un nuevo “modo de borrador” que genera imágenes más rápidamente que MidJourney V6.1, la versión anterior más inmediata, a menudo en menos de un minuto o incluso 30 segundos en algunos casos.

Si bien las imágenes son inicialmente de menor calidad que V6.1, el usuario puede hacer clic en los botones “Mejorar” o “variar” ubicados a la derecha de cada generación para volver a renderizar el borrador con toda calidad.

La idea es que el usuario humano estará encantado de usar ambos juntos; de hecho, debe activarse “Modo de borrador” para activar la entrada de audio, para ingresar un estado de flujo más transparente de redacción creativa con el modelo, pasar menos tiempo en refinar el lenguaje específico de las indicaciones y más en ver las nuevas generaciones en tiempo real y ajustarlos o ajustarlos como es necesario más naturalmente y rápidamente hablando de los pensamientos fuera de los pensamientos fuera de los pensamientos fuera de las nuevas.

“Haga que este look sea más detallado, más oscuro, más claro, más realista, más cinético, más vibrante”, etc. son algunas de las instrucciones que el usuario podría proporcionar a través de la nueva interfaz de audio en respuesta a generaciones para producir nuevas y ajustadas que coincidan mejor con su visión creativa.

Comenzando con MidJourney V7

Para ingresar estos modos, comenzando con la nueva función de “borrador”, el usuario primero debe saltar a través de un nuevo obstáculo: la función de personalización de MidJourney.

Si bien esta característica se había introducido anteriormente en MidJourney V6 en junio de 2024, era opcional, lo que permitía al usuario crear un “estilo” personal que podría aplicarse a todas las generaciones en el futuro calificando 200 pares de imágenes (seleccionando que al usuario le gustaba mejor) a través del sitio web de Midjourney. El usuario podría alternar un estilo que coincidía con las imágenes que más les gustó durante el proceso de calificación por pares.

Ahora, MidJourney V7 requiere que los usuarios generen un nuevo estilo personalizado específico de V7 antes Incluso usarlo en absoluto en primer lugar.

Una vez que el usuario lo haga, aterrizará en el familiar tablero del sitio web de Midjourney Alpha, donde puede hacer clic en “Crear” desde el riel lateral izquierdo para abrir una pestaña de creación.

Luego, en la barra de entrada rápida en la parte superior, el usuario puede hacer clic en el nuevo botón “P” a la derecha de la barra para encender su modo de personalización.

El fundador y líder de MidJourney, David Holz, confirmó que VentureBeat en X también se podían seleccionar estilos de personalización más antiguos de V6, pero no las “tablas de humor” separadas, los estilos formados por colecciones de imágenes con suplotación de usuarios, aunque la cuenta X de MidJourney declaró que las funciones regresarán pronto. Sin embargo, no vi la oportunidad de seleccionar mi estilo V6 anterior.

No obstante, el usuario puede hacer clic en el nuevo botón “Modo de borrador” a la derecha del botón Personalización (también más a la derecha del cuadro de entrada de indicación del texto) para activar este modo de generación de imágenes más rápido.

Una vez que se haya seleccionado con el cursor, se volverá naranja, indicando que está activado, y luego un nuevo botón con un icono de micrófono debe aparecer a la derecha de este. Este es el modo de solicitación de voz, en el que el usuario puede hacer clic una vez más para activar.

Una vez que el usuario ha presionado este botón de micrófono para ingresar al modo de indicación de voz, debe ver que el icono del micrófono cambia de blanco a naranja para indicar que está activado, y una línea de forma de onda aparecerá a la derecha que debería comenzar a ondular a tiempo con el discurso del usuario.

El modelo podrá escucharlo y también debe escuchar cuando termine de hablar. En la práctica, a veces recibí un mensaje de error que decía “API en tiempo real desconectado”, pero detener y reiniciar el modo de entrada de voz y actualizar la página web generalmente la aclaraba rápidamente.

Después de unos segundos de hablar, MidJourney comenzará a flashear algunas ventanas de palabras clave debajo del cuadro de texto de entrada de inmediato en la parte superior y también generará un mensaje de texto completo a la derecha, ya que genera un nuevo conjunto de 4 imágenes basado en lo que dijo el usuario.

El usuario puede modificar aún más estas nuevas generaciones hablando con el modelo nuevamente, alternando y desactivando el modo de voz según sea necesario.

Aquí hay un video de demostración rápido de mí usando hoy para generar algunas imágenes de muestra. Verá que el proceso está lejos de ser perfecto, pero es realmente rápido y permite más de un estado interrumpido de indicación, refinación y recepción de imágenes del modelo.

https://venturebeat.com/wp-content/uploads/2025/04/Midjourney-v7-Quick-Test-Voice-Entry-1080WebShareName.mov

Más características nuevas … pero también muchas características y limitaciones faltantes de V6/6.1

MidJourney V7 se lanza con dos modos operativos: turbo y relajarse. El modo Turbo proporciona un alto rendimiento al doble del costo de un trabajo V6 estándar, mientras que el modo borrador cuesta la mitad (en términos de trabajos). Un modo de velocidad estándar está actualmente en desarrollo y se lanzará una vez optimizado.

En el lanzamiento, las características como el aumento de la escala, la interpago y la retirada dependerán temporalmente del modelo V6. MidJourney planea hacer la transición de estas funciones a V7 en futuras actualizaciones.

La compañía se compromete con el desarrollo regular durante los próximos dos meses, con actualizaciones programadas cada una o dos semanas. Una próxima incorporación importante será un nuevo sistema de referencia de carácter y objetos diseñado específicamente para V7, características que se encuentran en versiones más antiguas de Midjourney aplicando sufijos de texto de texto arcano como –Cref y –Sref (para estilo) para atender el mensaje de texto de un usuario.

MidJourney planea involucrar a su comunidad a través de espacios de intercambio público y canales de retroalimentación, y organizará una sesión de clasificación de hoja de ruta para ayudar a priorizar futuros esfuerzos de desarrollo.

MidJourney enfatiza que V7 es un modelo completamente nuevo con sus propias fortalezas y desafíos. Se alienta a los usuarios a experimentar con diferentes estilos de inmediato e informar sus experiencias para ayudar a refinar la plataforma.

La reacción inicial es mixta … lejos de los elogios casi unánime de los lanzamientos anteriores de MidJourney

Si bien la mayoría de los lanzamientos más antiguos de mediana edad se encontraron con una abrumadora emoción y adulación, la recepción inicial a V7 es decididamente más mixta.

Aunque MidJourney tuvo cuidado de llamar a esto un lanzamiento de “alfa” en su blog y en las redes sociales, muchos usuarios aún esperaban un salto más grande en la calidad de imagen y la adherencia rápida (qué tan bien las generaciones de imágenes coincidían con las instrucciones específicas del usuario en el texto o el audio), y esperaban una comprensión anatómica humana mejorada (particularmente las manos, un problema de generación de imagen común) y la generación de textos (también los modelos de imagen de la imagen han tenido una mejor comprensión humana y se abren y se abren con la generación de imágenes de AI) y se han estrellado por algo, también algo de imagen de imagen. El generador de imágenes GPT-4O parece tenerlo mucho más consistentemente preciso que MidJourney V7 basado en los informes iniciales de los usuarios).

Como @Freiboitar escribió en X:

“Tengo que decirlo: un poco decepcionado.
OpenAi coloca el bar de cielo. ¿Habla con tu imagen Gen como si fuera tu hermano? Mente = soplado.

MJ7 se ve “más realista”. ¿Pero realmente necesitamos eso?
MJ + Magnific ya lo clavó.

Podría pausar mi sub tbh “.

“El problema es que V7 realmente no se siente como V7. Se siente más como V6.2”, publicó la fundadora de AI Magnific Javi Lopez en X, citando la naturaleza incremental aparente de las actualizaciones.

De hecho, Ethan Mollick, el profesor de la Escuela de Negocios de Pensilvania Wharton e Influencer de AI, también intervino para decir: “Me gustan sus nuevos lanzamientos, pero el problema con el nuevo V7 (derecha) lanzado hoy es que V6 (izquierda) ya era realmente bueno”.

“Las indicaciones idénticas de V6 son peores en V7”, escribió autodescrito “Maximalista de AI” David Shapiro en X.

“Todos los viejos favoritos que se están volviendo demasiado viejos”, dijo el artista y músico @Captainhahaa: “Las manos, el mensaje de texto siguen siendo un problema, sin CREF, SREFS se han vuelto locos. Pero está bien porque puedes hablar con él mientras te decepciona”.

Otros fueron más indulgentes y encantados con sus generaciones iniciales de prueba en V7, con el usuario de AI Power soñando a Tulpa diciendo en X que tenía “mejor calidad de imagen” y era “súper artística”.

Del mismo modo, la artista y diseñadora de IA Tatiana Tsiguleva expresó que MidJourney V7 era un “gran salto en calidad!”

Sin embargo, todavía son los primeros días para MidJourney V7, y la reacción inicial podría volver en cualquier dirección, ya sea adulación o frustración con el nuevo modelo y características de diseño. Por ahora, está disponible para cualquier persona con una cuenta de mediana edad para comenzar a usar.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Exit mobile version