Midjourney fue una de las plataformas originales de generación de imágenes artificiales y sigue siendo una de las mejores. Permite la creación de una amplia variedad de imágenes y estilos, con parámetros que ofrecen una increíble flexibilidad y control sobre el aspecto final de tu imagen.
Con su traslado a la web a principios de este año, poniendo fin al reinado del bot Discord, Midjourney se ha vuelto aún más poderoso. Esto incluye la adición de un editor, que le permite cambiar el tamaño de la imagen generada y hacer que la IA llene los espacios automáticamente.
Como cualquier plataforma poderosa que ha crecido y evolucionado, Midjourney tiene sus peculiaridades. Esto incluye configuraciones ocultas que pueden marcar una gran diferencia y, por supuesto, técnicas de indicación que le permiten obtener la imagen que realmente desea. Se compara muy favorablemente con otros modelos de IA y, a menudo, los supera en la mayoría de las métricas.
He intentado reunir una selección de los mejores consejos y técnicas de Midjourney que he aprendido a lo largo de los años, centrándome principalmente en indicaciones más que en funciones, por lo que esto seguirá funcionando si estás trabajando dentro del bot de Discord y no lo has hecho. Cambié a la web todavía.
Impulsando la mitad del viaje
Solicitar Midjourney es similar a cualquier otro generador de imágenes de IA: le gusta que seas específico, puedes usar lenguaje natural y, si eres vago, te dará la mejor suposición.
Ahora bien, no pretendo ser el mejor usuario de Midjourney, ni siquiera uno particularmente experto. Pero uso mucho la plataforma y he generado una cantidad considerable de imágenes.
Algunos de los creadores que he visto en las redes sociales producen contenido alucinante que realmente muestra el arte de la IA. Me refiero a trabajos que no serían posibles con otras formas de arte o que utilizan técnicas de inteligencia artificial para combinar ideas y estilos que no se ven comúnmente en otras áreas.
He reunido algunos de los mejores consejos que he recibido, junto con técnicas que he desarrollado yo mismo, para ayudarte a mejorar tus habilidades a mitad del viaje. ¡No dudes en compartir en los comentarios cualquier consejo que me haya perdido o ideas que creas que podrían ayudar a mejorar mis propias imágenes!
1. Sea lo más específico que pueda
(Crédito de la imagen: Midjourney/Future AI)
La especificidad es importante. Midjourney, Flux e Ideogram prosperan en la descripción y el detalle. Cuanto menos tenga que llenar el modelo los huecos, mejor reflejará la imagen tu idea. Midjourney funciona bien con indicaciones simples (incluso puedes darle un emoji), pero los detalles indican la dirección.
No todos los términos descriptivos son iguales. Debes centrarte en el tema principal, el fondo, la combinación de colores y los elementos que deseas asegurarte de que estén incluidos. Por ejemplo, si quieres un coche rojo, especifica el color.
Aquí hay una imagen típica de IA de un horizonte futuro. Quería incluir un río, así que me propuse incluirlo y el puente en mi mensaje. Especifiqué no sólo colores sino también estilos y conjuntos ligeros.
En general, debes evitar términos vagos. Me mantendría alejado de bello y genial a menos que necesites específicamente esos términos en el contexto, como un logotipo de látigo genial.
Mensaje de ejemplo: “Un horizonte urbano futurista al anochecer, con imponentes rascacielos de cristal que reflejan los tonos naranja y violeta del atardecer. Un río serpentea por el centro, con un puente colgante iluminado por suaves luces LED azules. Personas con trajes de estilo cyberpunk caminan por el calles, con carteles de neón brillando al fondo.”
2. Defina la cámara y el tipo de lente.
(Crédito de la imagen: Midjourney/Future AI)
Si desea una imagen lo más cercana posible a una fotografía real, defina la configuración de la cámara y la lente. Al igual que en la fotografía, configurar la lente, el ángulo, el tipo y el enfoque puede afectar el resultado final.
Utilice términos como gran angular, macro o telefoto, además de si la toma es cercana o amplia. Si lo que desea es la apariencia de un teléfono inteligente, es útil especificar la marca y el modelo del teléfono inteligente, ya que Midjourney puede adaptarse a eso. También puede ser útil especificar la época, como los años 90 o 60. Consulte términos de cámara como “lente de 50 mm” o “ISO 100” para obtener una imagen más precisa y enfocada.
Experimente cambiando la cámara en el mismo mensaje. En mi ejemplo para este consejo, lo configuré como una lente de 50 mm. Pruébelo usted mismo, pero conviértalo en un objetivo fijo de 35 mm para enfocar más de la escena que con un objetivo de 50 mm.
Mensaje de ejemplo: “Un retrato de un león en el Serengeti, tomado con una lente de 50 mm en la hora dorada. El enfoque es nítido en los ojos del león, con una poca profundidad de campo que desdibuja las altas hierbas del fondo. La luz resalta la melena del león, creando un efecto cálido y brillante.”
3. Ponte emocional
(Crédito de la imagen: Midjourney/Future AI)
Si bien términos genéricos como genial y hermoso no son una gran idea, ser más específico con términos emotivos puede agregar una mejor sensación general a tu imagen. Por ejemplo, el uso de frases como melancólica, alegre o incluso siniestra puede afectar la forma en que se transmite la vibra y el tono.
Además de las palabras específicas, puedes combinarlas con detalles ambientales para crear una atmósfera para tu imagen. Si desea algo con una sensación sombría, puede incluir “cielos oscuros y tormentosos” o, para algo más alegre, puede usar “cielos brillantes y soleados con una luz suave y dorada”, que evoca un estado de ánimo cálido y alegre.
Si desea experimentar, ¿por qué no intenta cambiar “sereno y pacífico” en el siguiente mensaje por “oscuro y tormentoso” o “brillante y festivo” para ver cómo cambia la imagen?
Mensaje de ejemplo: “Un bosque sereno y pacífico al amanecer, con la suave luz del sol filtrándose a través de las hojas. La escena se siente tranquila y calmante, con un brillo brumoso alrededor de los árboles. Un ciervo está parado en el centro, con la cabeza inclinada hacia la luz, evocando una sensación de silenciosa maravilla.”
4. Refinamiento iterativo
(Crédito de la imagen: Midjourney/Future AI)
Este es el consejo más difícil de demostrar, ya que no implica un solo cambio y hay varias formas de realizar el proceso. Sin embargo, el concepto es simple: prueba, intenta y vuelve a intentar hasta que obtengas exactamente lo que esperabas. La idea es que estamos refinando la imagen creando constantemente nuevas versiones para solucionar pequeños problemas con la generación.
Debe comenzar con un concepto amplio y simple (un mensaje que puede tener unas pocas palabras) y luego desarrollarlo agregando más detalles con cada nueva generación. Una forma de hacer esto es darle la primera imagen a ChatGPT y pedirle a ese chatbot que la describa. Luego, pídale que agregue lo que desee al mensaje, como un cambio de color, una iluminación diferente o un árbol.
Midjourney también tiene su propia función de descripción que se puede usar de la misma manera, o puedes jugar con las opciones de variación y remezcla integradas en Midjourney para adaptar la imagen. Por ejemplo, podría utilizar la primera imagen como referencia al crear la siguiente versión.
Mensaje de ejemplo (inicial): “Una nave espacial volando a través de una nebulosa”. Mensaje refinado (compartido): “Una elegante nave espacial metálica con brillantes motores azules que vuela a través de una nebulosa púrpura arremolinada, con estrellas en el fondo. La luz de los motores se refleja en el casco de la nave, proyectando un tenue resplandor en el espacio circundante”.
5. Usando parámetros
(Crédito de la imagen: Midjourney/Future AI)
Finalmente, el verdadero poder de Midjourney son sus parámetros y el control que te dan sobre la imagen que estás creando. Se trata de configuraciones avanzadas que pueden controlar diferentes elementos como dimensiones, calidad e incluso aleatoriedad creativa. En los días de Discord, necesitabas configurarlos con un “–“, pero ahora parte de eso es un botón en la web.
Puede definir la relación de aspecto, la resolución de la imagen y el punto focal y establecer un estilo, referencia de imagen, nivel de caos y creatividad. Hay miles de millones de referencias de estilo en Midjoruney, a las que se accede mediante el comando –sref ya sea con la palabra aleatorio, una URL o un número.
Debido a que usé “caos” en el mensaje, incluí las cuatro imágenes generadas por Midjourney desde el mismo mensaje. El caos te brinda más variedad entre cada imagen.
Mensaje de ejemplo:“Un paisaje de colinas bajo un cielo azul claro, con un pequeño pueblo en la distancia. Los colores deben ser vibrantes y ligeramente estilizados, evocando una sensación de ensueño. –ar 16:9 –stylize 1000 –chaos 20.”
–Ar 16:9: establece la relación de aspecto en 16:9 (formato panorámico).
–estilizar 1000: Agrega un fuerte estilo estético a la imagen.
–caos 20: Agrega algo de variedad y aleatoriedad a la generación, mientras la mantiene controlada.
The world of artificial intelligence (AI) has become increasingly competitive, and the latest development in this arena is Elon Musk’s xAI unveiling Grok 3. With bold claims like being the “Smartest AI on Earth,” Grok 3 aims to challenge OpenAI’s ChatGPT for the top spot. Grok 3 has been trained on xAI’s Colossus supercluster, equipped with 100,000 GPUs, delivering over ten times the computational power of its predecessor, Grok 2.
But how does Grok 3 truly compare to OpenAI’s ChatGPT? In this head-to-head comparison, we’ll evaluate their performance, features, accessibility, user experience, and potential applications to help you understand which model best suits your needs.
1. Performance and Capabilities
The foundation of any AI model lies in its performance and computational capabilities. Grok 3 and ChatGPT approach this differently, with xAI focusing on reasoning power and OpenAI emphasizing versatility.
Grok 3 stands out in its problem-solving capabilities. Its “Think” mode allows users to see the step-by-step reasoning process, which enhances trust and clarity, particularly for research and educational tasks. Meanwhile, ChatGPT remains the industry leader in natural conversation, content creation, and multilingual communication.
2. Accessibility and Pricing
The cost and availability of these AI models can significantly impact their adoption rates.
Aspect
Grok 3 (xAI)
ChatGPT (OpenAI)
Free Tier
Limited within X (formerly Twitter)
Available (GPT-3.5)
Premium Tier
$40/month (X Premium Plus)
$20/month (ChatGPT Plus)
Specialized Access
$30/month for “SuperGrok”
Enterprise plans for API access
Platform Availability
Integrated into X app
OpenAI web interface, mobile apps
While ChatGPT’s pricing structure remains more accessible for most users, xAI has strategically integrated Grok 3 within the X ecosystem, making it a natural extension for social media users who already engage with the platform regularly.
3. User Experience and Interface
The experience of interacting with an AI model often determines how regularly users return to it.
Grok 3: Focuses on transparency with its “Think” mode, showing how the AI arrives at its conclusions. The interface is minimalistic and built into the X platform, ensuring easy access for subscribers.
ChatGPT: Provides a seamless and straightforward interface across both web and mobile applications. OpenAI has continuously refined ChatGPT to make conversations more intuitive, with context-aware responses and memory features.
Verdict: If you’re an X user who values detailed explanations, Grok 3 offers an intriguing edge. For general-purpose interactions, ChatGPT remains more accessible.
ChatGPT
4. Core Technology and Innovations
AI models are only as good as the architectures and innovations behind them.
Technology
Grok 3 (xAI)
ChatGPT (OpenAI)
LLM Architecture
Proprietary LLM with Grok-3
GPT-4 (current) and GPT-3.5
Training Dataset
xAI’s proprietary dataset with a focus on logical reasoning
Trained on diverse internet content
Optimization Focus
Mathematical reasoning and scientific tasks
Language comprehension and text generation
Integration Tools
Deep Search Engine, X integration
OpenAI API, ChatGPT Plugins
Grok 3 emphasizes advanced reasoning, targeting professionals in research, engineering, and education. ChatGPT maintains its dominance in general-purpose AI tasks, including customer service, content creation, and educational assistance.
5. Real-World Applications and Use Cases
Application Area
Grok 3 (xAI)
ChatGPT (OpenAI)
Social Media Integration
Seamlessly integrated with X
Limited third-party integrations
Educational Tools
Strong in STEM education and problem-solving
Widely used for language learning
Content Creation
Decent, with an analytical tone
Strong creative writing capabilities
Business Applications
Limited enterprise tools currently
Extensive enterprise adoption
Grok 3 positions itself as the go-to model for users seeking deep analytical capabilities, especially in scientific and technical domains. ChatGPT, on the other hand, excels in more diverse applications, including marketing, customer engagement, and creative writing.
6. Community and Ecosystem
Grok 3: Heavily reliant on the X platform, xAI has started attracting researchers and AI enthusiasts who appreciate its advanced reasoning capabilities.
ChatGPT: OpenAI enjoys a more expansive ecosystem, with a large developer community leveraging its API for various applications and integrations.
Long-Term Potential: xAI plans to open-source Grok 2 in the coming months, potentially spurring community involvement and model improvement. OpenAI already benefits from robust community contributions and research.
Which AI Is Right for You?
Both Grok 3 and ChatGPT offer compelling features but cater to different audiences:
Choose Grok 3 if you prioritize logical reasoning, STEM applications, and are already part of the X ecosystem.
Choose ChatGPT if you need versatile, human-like conversations and value an established, community-supported AI.
The future of AI remains dynamic, with Grok 3 pushing boundaries in computational power and reasoning while ChatGPT maintains its lead in accessibility and creativity. As these models continue evolving, the best choice will depend on your specific needs and how each platform adapts to user feedback in this fast-paced AI race.
Key Takeaways
Grok 3 features 10X more computing power than previous versions
The AI assistant combines massive computational resources with a unique personality
The competition between Grok 3 and ChatGPT signals a new phase in AI development
Grok vs Gemini vs ChatGPT
Here is a table comparing the latest models from xAI (Grok 3), Gemini (2.0), and ChatGPT:
Model
Developer
Key Features
Strengths
Weaknesses
Accessibility
Grok 3
xAI
Advanced reasoning, DeepSearch integration with X, “Think” and “Big Brain” functions
Strong in math, science, and coding, real-time information access, human-like reasoning
Currently limited accessibility, tied to X ecosystem, relatively new and untested
X Premium+ subscription, upcoming “Super Grok” subscription
Gemini 2.0
Google
Multimodal capabilities (text, images, video, audio), improved efficiency and scalability
Versatile across various modalities, handles complex tasks efficiently
Potential bias and ethical concerns, requires significant computational resources
Google AI Studio, Bard interface, API access
ChatGPT (latest)
OpenAI
Conversational AI, text generation, translation, code generation, question answering
Widely accessible, strong general-purpose language understanding
Can generate inaccurate or biased information, struggles with complex reasoning
ChatGPT Plus subscription, API access
ChatGPT vs Gemini
In-Depth Comparison of Grok 3 and ChatGPT
The latest AI models from Elon Musk’s xAI and OpenAI showcase significant differences in their core technologies, performance metrics, and real-world applications. These distinctions shape how each model handles complex tasks and interacts with users.
Architectural Differences
Grok 3 uses a transformer-based architecture with modifications that enable faster processing of long sequences. The model incorporates new attention mechanisms and sparse expert networks.
xAI developed custom optimizations for Grok 3’s neural pathways, allowing it to process context windows of up to 1 million tokens. This represents a major advancement over previous models.
The training dataset for Grok 3 includes real-time data from X (formerly Twitter), giving it access to current events and conversations. This differs from ChatGPT’s training cutoff date.
Performance Benchmarks
Language Understanding Tests:
Grok 3: 94.2% accuracy
ChatGPT: 92.8% accuracy
Code Generation Speed:
Grok 3: 1.2x faster than ChatGPT
Response time: 0.8 seconds average
Grok 3 shows superior performance in mathematical reasoning and coding tasks. Independent tests reveal a 15% improvement in solving complex programming challenges.
The model excels at real-time data analysis and current events discussion, though ChatGPT maintains an edge in creative writing tasks.
Advances in Reasoning Capabilities
Grok 3 implements new reasoning frameworks that combine symbolic logic with neural processing. This enables more accurate problem-solving in mathematics and science.
The model features enhanced memory retention across long conversations. It can reference earlier parts of discussions with greater accuracy than its predecessor.
ChatGPT still leads in nuanced understanding of context and social cues. Its responses show more consistent emotional intelligence in complex scenarios.
Impact on AI and Coding Communities
Software developers report 30% faster debugging sessions when using Grok 3’s code analysis features. The model’s ability to explain complex algorithms has improved knowledge sharing in tech communities.
DeepSeek and other AI researchers note Grok 3’s potential influence on future model architectures. Its innovations in attention mechanisms are already inspiring new research directions.
The competition between these models has accelerated the development of better coding tools and documentation generators. Both platforms now offer more specialized features for programmers.
Implications and Future of AI Development
The rapid advancement of AI models like Grok 3 signals major shifts in computing power, model architecture, and ethical considerations for artificial intelligence development.
Elon Musk’s Vision for AI
Musk’s development of Grok 3 through xAI demonstrates his commitment to creating AI systems that can match or exceed human intelligence. The Colossus supercluster, powered by 100,000 GPUs, shows unprecedented computational scale.
The focus on raw processing power marks a significant departure from traditional AI development approaches. Musk aims to push AI capabilities beyond current limitations.
His claims about Grok 3 being the “smartest AI on Earth” reflect an ambitious goal of achieving artificial general intelligence (AGI). This raises important questions about AI safety and control mechanisms.
The Role of Explainable AI (XAI)
XAI principles become crucial as AI models grow more powerful. Transparent decision-making processes help users understand how AI systems reach their conclusions.
Grok 3’s architecture incorporates explainability features that allow users to trace the reasoning behind its outputs. This transparency builds trust and enables better human-AI collaboration.
Modern XAI techniques include attention visualization, decision trees, and natural language explanations. These tools help developers identify and correct potential biases.
Next Steps in AI Pretraining and Model Building
Advanced pretraining methods use synthetic data and specialized computing clusters to improve model performance. The race between companies drives innovation in model architectures.
Key Technical Advances:
Multi-modal learning capabilities
Improved context windows
Enhanced reasoning abilities
Reduced training time
New benchmarks measure capabilities beyond traditional metrics like parameters and compute power. The focus shifts to practical applications and real-world problem-solving abilities.
Frequently Asked Questions
Grok 3 represents a significant advancement in AI capabilities, powered by 100,000 GPUs and introducing new approaches to learning and interaction that set it apart from existing models.
How does Grok 3 differ from ChatGPT in terms of capabilities?
Grok 3 operates with 10 times more computing power than its predecessor, utilizing the Colossus supercluster for enhanced processing capabilities.
The AI demonstrates advanced reasoning abilities and can process complex queries with greater speed and accuracy than previous models.
What advancements has Elon Musk’s AI introduced compared to ChatGPT?
Grok 3 leverages real-time data from X (formerly Twitter) for up-to-date responses and analysis.
The system incorporates advanced learning algorithms that allow it to adapt and improve based on user interactions.
Can Grok 3 be integrated into existing systems similarly to ChatGPT?
Grok 3 maintains compatibility with standard API protocols, enabling integration into various applications and platforms.
The system supports multiple programming languages and frameworks for seamless implementation.
What are the implications of Grok 3 for the future of AI development?
Grok 3’s advanced computing architecture sets new standards for AI processing power and efficiency.
The model’s enhanced capabilities push boundaries in natural language processing and machine learning.
In what ways is Grok 3’s approach to learning and interaction unique?
Grok 3 features a distinctive personality that reflects its creator’s vision for AI interaction.
The system employs novel training methods that combine traditional machine learning with innovative approaches to data processing.
How is Elon Musk planning to utilize Grok 3 in his businesses?
Integration plans include implementation across X platform for enhanced user engagement and content moderation.
The technology will support various Tesla initiatives, including autonomous driving systems and user interface improvements.
What Is Grok 3?
Grok 3 is the latest iteration of xAI’s groundbreaking large language model (LLM), developed under the leadership of Elon Musk. It represents a significant leap forward in AI capabilities, building upon the foundations laid by its predecessors and pushing the boundaries of what’s possible with artificial intelligence. Grok 3 isn’t just another chatbot; it’s designed with a focus on advanced reasoning, comprehensive knowledge, and real-time information access, setting it apart from many existing AI models.
One of Grok 3’s defining features is its enhanced reasoning engine. It’s not simply regurgitating information; it can analyze complex data, draw logical conclusions, and provide human-like explanations. This allows Grok 3 to tackle intricate problems in fields like mathematics, science, and coding with a level of proficiency that rivals, and in some cases surpasses, other leading AI models, including ChatGPT.
Furthermore, Grok 3 introduces “DeepSearch,” a revolutionary search engine that goes beyond traditional web indexing. DeepSearch crawls the vast expanse of the internet and the real-time conversations and information shared on X (formerly Twitter) to provide users with concise and relevant summaries for their research queries. This integration with X gives Grok 3 access to a constantly updated stream of information, making it particularly adept at understanding current events and trends.
Grok 3 offers users different levels of interaction through its “Think” and “Big Brain” functions. “Think” allows for quick queries and concise answers, while “Big Brain” is designed for more complex tasks requiring deeper analysis and more extensive responses. This tiered approach allows users to tailor their interaction with Grok 3 to the specific demands of their task.
Initially available to X Premium+ subscribers, Grok 3 is poised to become a standalone product through a “Super Grok” subscription. This move signals xAI’s intention to broaden access to Grok 3’s powerful capabilities and establish it as a key player in the evolving AI landscape. While still relatively new, Grok 3 is already making waves and raising the bar for what’s expected from advanced AI models.
How Do You Get Access to Grok 3?
Accessing the power of Grok 3 is currently tied to a subscription model, though xAI has indicated plans for broader availability in the future. Here’s a breakdown of the current access methods:
Current Access:
X Premium+ Subscription: Grok 3 is currently bundled with X’s highest-tier subscription service, X Premium+. Subscribing to X Premium+ grants you access to Grok 3’s capabilities directly within the X platform. This integration allows users to leverage Grok 3’s real-time information access and conversational abilities within the context of their X experience. It’s important to note that this access comes with the cost of the X Premium+ subscription, which has recently seen a price increase.
Future Access:
Super Grok Subscription: xAI has announced plans to offer a standalone Grok subscription called “Super Grok.” This subscription will provide access to Grok 3 through a dedicated app and website, independent of an X Premium+ subscription. This will likely make Grok 3 more accessible to users who are primarily interested in its AI capabilities and not necessarily the other features of X Premium+. Details regarding the pricing and specific features of the “Super Grok” subscription are expected to be released soon.
Important Considerations:
Pricing: Access to Grok 3, whether through X Premium+ or the upcoming “Super Grok” subscription, will involve a recurring fee. It’s crucial to consider the cost of these subscriptions when evaluating whether Grok 3 is the right AI tool for your needs.
Availability: While currently limited to X Premium+ subscribers, the introduction of the “Super Grok” subscription suggests that xAI aims to expand access to Grok 3. Keep an eye on official announcements from xAI for updates on availability and pricing.
In summary, while Grok 3 is currently tied to X Premium+, the upcoming “Super Grok” subscription promises to provide a more direct and potentially more affordable way to access this powerful AI. Staying informed about xAI’s announcements will be key to securing access to Grok 3 as it becomes more widely available.
Analizadores de análisis superiores: Pares de investigación profundos de Openai razonamiento de LLMS con trapo de agente para automatizar el trabajo y reemplazar trabajos
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Las empresas empresariales deben tomar nota de la investigación profunda de OpenAI. Proporciona un poderoso producto basado en nuevas capacidades, y es tan bueno que podría dejar a mucha gente fuera de trabajo.
La investigación profunda está en el borde sangrado de una tendencia creciente: la integración de modelos de idiomas grandes (LLM) con motores de búsqueda y otras herramientas para expandir en gran medida sus capacidades. (Justo cuando se informó este artículo, por ejemplo, el XAI de Elon Musk presentó Grok 3, que reclama capacidades similares, incluido un producto de búsqueda profunda. Sin embargo, es demasiado pronto para evaluar el rendimiento del mundo real de Grok 3, ya que la mayoría de los suscriptores no han en realidad todavía lo conseguí).
La investigación profunda de Openai, lanzada el 3 de febrero, requiere una cuenta profesional con OpenAI, que cuesta $ 200 por mes, y actualmente está disponible solo para los usuarios de EE. UU. Hasta ahora, esta restricción puede tener comentarios tempranos limitados de la comunidad de desarrolladores globales, que generalmente se apresura a diseccionar nuevos avances de IA.
Con el modo de investigación profunda, los usuarios pueden hacer cualquier pregunta al modelo O3 líder de OpenAI. El resultado? Un informe a menudo superior a lo que producen los analistas humanos, entregado más rápido y a una fracción del costo.
Cómo funciona la investigación profunda
Si bien la investigación profunda se ha discutido ampliamente, sus implicaciones más amplias aún no se han registrado completamente. Las reacciones iniciales elogiaron sus impresionantes capacidades de investigación, a pesar de sus alucinaciones ocasionales en sus citas. Estaba el tipo que dijo que lo usó para ayudar a su esposa que tenía cáncer de seno. Proporcionó un análisis más profundo de lo que sus oncólogos proporcionaron sobre cómo la radioterapia era el curso de acción correcto, dijo. El consenso, resumido por el profesor de Wharton AI, Ethan Mollick, es que sus ventajas superan con creces las imprecisiones ocasionales, ya que la verificación de hechos lleva menos tiempo de lo que la IA salva en general. Esto es algo con lo que estoy de acuerdo, basado en mi propio uso.
Las instituciones financieras ya están explorando las solicitudes. BNY Mellon, por ejemplo, ve potencial en el uso de una investigación profunda para las evaluaciones de riesgos de crédito. Su impacto se extenderá entre las industrias, desde la atención médica hasta la gestión minorista, de fabricación y de la cadena de suministro, prácticamente cualquier campo que se basa en el trabajo de conocimiento.
Un agente de investigación más inteligente
A diferencia de los modelos de IA tradicionales que intentan respuestas de un solo disparo, la investigación profunda primero hace preguntas aclaratorias. Puede hacer cuatro o más preguntas para asegurarse de que comprenda exactamente lo que desea. Luego desarrolla un plan de investigación estructurado, realiza múltiples búsquedas, revisa su plan basado en nuevas ideas e itera en un bucle hasta que compila un informe integral y bien formato. Esto puede llevar entre unos minutos y media hora. Los informes varían de 1,500 a 20,000 palabras, y generalmente incluyen citas de 15 a 30 fuentes con URL exactas, al menos de acuerdo con mi uso durante la última semana y media.
La tecnología detrás de la investigación profunda: razonamiento LLMS y el trapo de agente
La investigación profunda hace esto fusionando dos tecnologías de una manera que no hemos visto antes en un producto de mercado masivo.
LLMS de razonamiento: El primero es el modelo de vanguardia de OpenAI, O3, que conduce en un razonamiento lógico y procesos extendidos de la cadena de pensamiento. Cuando se anunció en diciembre de 2024, el O3 obtuvo un 87.5% sin precedentes en el punto de referencia SUPER-DIFFICTULT ARC-AGI diseñado para probar nuevas habilidades de resolución de problemas. Lo interesante es que O3 no se ha lanzado como un modelo independiente para que los desarrolladores lo usen. De hecho, el CEO de OpenAI, Sam Altman, anunció la semana pasada que el modelo en cambio estaría envuelto en un sistema de “inteligencia unificada”, que uniría modelos con herramientas de agente como la búsqueda, los agentes de codificación y más. La investigación profunda es un ejemplo de dicho producto. Y aunque competidores como Deepseek-R1 se han acercado a las capacidades de O3 (una de las razones por las que había tanta emoción hace unas semanas), OpenAi todavía se considera ampliamente que está ligeramente por delante.
Trapo de agente: El segundo, Agentic Rag, es una tecnología que ha existido durante aproximadamente un año. Utiliza agentes para buscar información autónoma y contexto de otras fuentes, incluida la búsqueda de Internet. Esto puede incluir otros agentes de llamas de herramientas para encontrar información no WEB a través de API; agentes de codificación que pueden completar secuencias complejas de manera más eficiente; y búsquedas en la base de datos. Inicialmente, la investigación profunda de OpenAI está buscando principalmente en la web abierta, pero los líderes de la compañía han sugerido que podría buscar más fuentes con el tiempo.
La ventaja competitiva de OpenAI (y sus límites)
Si bien estas tecnologías no son completamente nuevas, las refinamientos de OpenAI, habilitados por cosas como su inicio de trabajo en trabajar en estas tecnologías, fondos masivos y su modelo de desarrollo de código cerrado, han llevado a una investigación profunda a un nuevo nivel. Puede funcionar a puerta cerrada y aprovechar los comentarios de los más de 300 millones de usuarios activos del popular producto CHATGPT de Openai. Operai ha liderado en investigación en estas áreas, por ejemplo, en cómo hacer verificación paso a paso para obtener mejores resultados. Y ha implementado claramente la búsqueda de una manera interesante, tal vez tomando prestado de Microsoft’s Bing y otras tecnologías.
Si bien todavía está alucinando algunos resultados de sus búsquedas, lo hace menos que los competidores, tal vez en parte porque el modelo O3 subyacente ha establecido una industria baja para estas alucinaciones al 8%. Y hay formas de reducir aún más los errores, mediante el uso de mecanismos como umbrales de confianza, requisitos de citas y otras verificaciones de credibilidad sofisticadas.
Al mismo tiempo, hay límites para el liderazgo y las capacidades de OpenAi. Dentro de los dos días del lanzamiento de Deep Research, Huggingface presentó un agente de investigación de IA de código abierto llamado Open Deep Research que obtuvo resultados que no estaban muy lejos de la de OpenAi, de manera similar, fusionando modelos líderes y capacidades de agente disponibles gratuitamente. Hay pocos focos. Los competidores de código abierto como Deepseek parecen mantenerse cerca en el área de los modelos de razonamiento, y Magentic-One de Microsoft ofrece un marco para la mayoría de las capacidades de agente de OpenAI, por nombrar solo dos ejemplos más.
Además, la investigación profunda tiene limitaciones. El producto es realmente eficiente para investigar información oscura que se puede encontrar en la web. Pero en áreas donde no hay mucho en línea y donde la experiencia en el dominio es en gran medida privada, ya sea en las cabezas de las personas o en bases de datos privadas, no funciona en absoluto. Por lo tanto, esto no va a amenazar los trabajos de los investigadores de fondos de cobertura de alta gama, por ejemplo, a quienes se les paga para hablar con expertos reales en una industria para encontrar información muy difícil de Obtain, como argumentó Ben Thompson En una publicación reciente (ver gráfico a continuación). En la mayoría de los casos, la investigación profunda de OpenAI afectará a los trabajos de analistas más bajos y calificados.
El valor de Deep Research primero aumenta a medida que la información en línea se vuelve escasa, luego cae cuando se vuelve realmente escaso. Fuente: Stratechery.
El producto más inteligente hasta ahora
Cuando fusiona el razonamiento de primer nivel con la recuperación de agente, no es realmente sorprendente que obtenga un producto tan poderoso. La investigación profunda de Openai logró un 26,6% en el último examen de la humanidad, posiblemente el mejor punto de referencia para la inteligencia. Este es un punto de referencia de IA relativamente nuevo diseñado para ser el más difícil de completar para cualquier modelo de IA, que cubra 3.000 preguntas en 100 sujetos diferentes. En este punto de referencia, la investigación profunda de OpenAI supera significativamente la investigación profunda de Perplexity (20.5%) y modelos anteriores como O3-Mini (13%) y Deepseek-R1 (9.4%) que no estaban conectados con trapo de agente. Pero las primeras revisiones sugieren clientes potenciales abiertos tanto en calidad como en profundidad. La investigación profunda de Google aún no se ha probado con este punto de referencia, pero las primeras revisiones sugieren clientes potenciales de calidad y profundidad.
Cómo es diferente: la primera IA del mercado masivo que podría desplazar los trabajos
Lo que es diferente con este producto es su potencial para eliminar los empleos. Sam Witteveen, cofundador de Red Dragon y desarrollador de agentes de IA, observó en una discusión de video de inmersión profunda conmigo que mucha gente va a decir: “Solía mierda, puedo obtener estos informes por $ 200 que podría obtener de los que podría obtener una compañía de consultoría entre 4 mejores que me costarían $ 20,000 ”. Esto, dijo, causará algunos cambios reales, incluido probablemente dejar a las personas fuera de los trabajos.
Lo que me lleva de vuelta a mi entrevista la semana pasada con Sarthak Pattanaik, Jefe de Ingeniería e IA en BNY Mellon, un importante banco estadounidense.
Sin duda, Pattanaik no dijo nada sobre las ramificaciones del producto para los recuentos de trabajos reales en su banco. Ese será un tema particularmente sensible que cualquier empresa probablemente rehuya abordar públicamente. Pero dijo que podía ver que la investigación profunda de OpenAI se utilice para informes de suscripción de crédito y otras actividades de “línea superior”, y que tenga un impacto significativo en una variedad de trabajos: “Ahora eso no afecta a cada trabajo, pero eso afecta a un conjunto de empleos alrededor de la estrategia [and] Investigación, como la gestión de los proveedores de comparación, comparación del producto A versus producto B “. Agregó: “Así que creo que todo lo que está más en el sistema dos pensamientos: más exploratorio, donde puede no tener una respuesta correcta, porque la respuesta correcta se puede montar una vez que tenga esa definición de escenario, creo que es una oportunidad”.
Una perspectiva histórica: pérdida de empleo y creación de empleo
Las revoluciones tecnológicas han desplazado históricamente a los trabajadores a corto plazo mientras crean nuevas industrias a largo plazo. Desde automóviles que reemplazan los carruajes tirados por caballos hasta las computadoras que automatizan el trabajo administrativo, los mercados laborales evolucionan. Las nuevas oportunidades creadas por las tecnologías disruptivas tienden a generar una nueva contratación. Las empresas que no adoptan estos avances se quedarán atrás de sus competidores.
Altman de OpenAI reconoció el vínculo, incluso si es indirecto, entre investigaciones profundas y mano de obra. En la cumbre de IA en París la semana pasada, se le preguntó sobre su visión de inteligencia general artificial (AGI), o la etapa en la que AI puede realizar casi cualquier tarea que un humano pueda. Como respondió, su primera referencia fue una investigación profunda: “Creo que es un modelo capaz de hacer como un porcentaje de bajo dígito de todas las tareas en la economía en el mundo en este momento, que es una declaración loca, y Hace un año no creo que algo que la gente pensara vendrá “. (Ver minuto tres de este video). Continuó: “Por 50 centavos de cómputo, puede hacer como $ 500 o $ 5,000 de trabajo. Las empresas están implementando eso para ser mucho más eficientes “.
La comida para llevar: una nueva era para el trabajo de conocimiento
Deep Research representa un momento decisivo para la IA en las industrias basadas en el conocimiento. Al integrar el razonamiento de vanguardia con capacidades de investigación autónoma, OpenAi ha creado una herramienta que es más inteligente, más rápida y significativamente más rentable que los analistas humanos.
Las implicaciones son enormes, desde servicios financieros hasta atención médica hasta toma de decisiones empresariales. Las organizaciones que aprovechan esta tecnología de manera efectiva obtendrán una ventaja competitiva significativa. Aquellos que lo ignoran lo hacen bajo su riesgo.
Para una discusión más profunda sobre cómo funciona la investigación profunda de OpenAI, y cómo funciona el conocimiento, consulte mi conversación en profundidad con Sam Witteveen en nuestro último video:
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Presionar botones para producir escritos robará a una persona de la capacidad de conectarse con su propia alma y con otra Tzelem Elokim
W
Salieron las computadoras, la gente se maravilló de su capacidad para calcular tan rápido y tan perfectamente. Pero aunque los humanos se enorgullecen de sus habilidades de pensamiento, nadie realmente se sintió intimidado por las computadoras. Después de todo, eran solo máquinas.
Incluso cuando sus capacidades superaron los cálculos matemáticos simples y comenzaron a sintetizar información para proporcionar predicciones y evaluaciones, todavía no estábamos terriblemente preocupados. Lo reconocimos como nada más que una aplicación de nivel superior del mismo tipo de cálculo.
Pero luego chatgpt golpeó. Y ahora de repente las computadoras nos están hablando. Y preparar discursos y escribir cartas que suenan terriblemente como humanos. La gramática y el uso del idioma son excelentes, y las frases y el contenido suenan tranquilizadoramente familiares y apropiados. Los profesores deben usar programas cada vez más sofisticados para enganchar documentos producidos por ChatGPT. Algunas escuelas incluso exigen que las tareas escritas solo se puedan hacer en la escuela, frente al personal. Muchas compañías ahora responderán de manera rutinaria a su correo utilizando un programa de chat.
De repente, no estamos tan seguros de nosotros mismos. Discurso, que es nuestra característica humana más definitoria (ver Onkelos Bereishis 2: 7, y citado en muchos Seforim; ver Maharsha y Maharal, Shabat 33a), está siendo generado por una máquina. Esto parece socavar nuestro sentido de la humanidad. No es solo una sensación desconcertante, sino también, prueba nuestra creencia central en la existencia de la neshamah y el concepto de Tzelem Elokim.
Así que comencemos comprendiendo el concepto de “discurso” desde la perspectiva de la Torá. A primera vista, el concepto de habla como la calidad definitoria del hombre parece desconcertante. ¿No valoramos la sabiduría y la inteligencia por encima del discurso?
El Maharal (NesivosOlam, NesivHalashon) explica que el significado único del habla es que es la única facultad humana que es “doble capas”. Cuando una persona habla, las palabras son realidades físicas que definen elementos físicos. Pero también podemos escuchar el alma de la persona que se proyecta a través de las palabras. Una persona puede describirnos su difícil situación o su alegría. Las palabras describen las realidades físicas de un evento en particular, pero su “discurso” en su forma holística nos transmite cómo la persona está experimentando ese evento.
Esta capacidad de expresar nuestra esencia a través del discurso se debe a la Tzelem Elokim (Imagen divina) en la que fue creado el hombre. Las “palabras” de Hashem crearon el mundo; Cada acto de creación comienza con las palabras “y Hashem dijo”. Sin embargo, la creación del hombre tiene una descripción única: “e infundió en la fosa nasal de un alma viviente”. El Zohar Famoso enfatiza que la respiración emana de la esencia misma de la persona. Por lo tanto, al crear el hombre, Hashem lo infundió con alguna parte de su propia esencia divina. Si bien el concepto de la Divina Spark en el hombre es un concepto cabalístico muy profundo, entendemos por esto que la respiración inherente en cada palabra hablada lleva parte de la esencia del hablante.
Esto es cierto para Hashem, y debido a que somos creados a la imagen divina, es cierto para nosotros en nuestro propio mundo. Cuando hablamos, estamos involucrados en una actividad de doble capa. Articulamos palabras que son descripciones físicas de alguna materia u otra, y hasta cierto punto infundimos esas palabras con un alma, una chispa de nuestra propia esencia.
También vemos esta dinámica en el trabajo en la transmisión de la Torá en Har Sinai. La primera palabra de la Torá que hashem pronunció fue Anochi. Chazal Teach (Shabat 105a) que Anochi es un acrónimo de “Mi esencia me puse en este escrito, y te lo di”. Esto significa que no solo las palabras de la Torá describen la realidad espiritual, sino también, al escuchar y estudiar la Torá, nuestras almas se conectan en algún nivel con la fuente divina de las palabras.
Las personas que poseían esa calidad podían infundir las palabras más simples con extraordinarias neshamah.
El Gabbai del Rebe de Kotzker una vez llegó a él, advirtiendo: “¡Rebe, Rebe! ¡Alguien acaba de robar el abrigo del Rebe!
El Rebe rugió: “¿Qué quieres decir? robó? No dice Lo signov?! “
El Gabbai escribe que durante años después, el Rebe no pudo entender cómo alguien podría robar (Harebbe mi’kotzkYitzchak Alfasi, p. 191).
En el Hesped de Rav Chatzkel Levenstein, Rav Wolbe dijo: “Cuando Rav Chatzkel dijo Bircas Hamazon, como dijo,”b’chein, b’chesed, uv’rachamim, ‘ uno podía sentirse palpablemente el Chein, el quitado, y el Rachamimcon el cual Hashem alimenta un mundo hambriento “.
El propio Rav Wolbe, en su introducción a AleiShur, Describe la profunda influencia que su rebbi, Rav Yerucham Levitz, tuvo sobre él. Describe a su rebbi como alguien “cuyas mismas palabras infundieron la vida en … un mero cadáver [mechayeh meisim b’maamaro]. ” Él escribe que las enseñanzas de su Rebbi impregnan al Sefer. Luego agrega: “Si alguien se siente particularmente elevado o conmovido por cualquier parte del Sefer, es un eco de la voz de Rav Yerucham Levovitz que reverbere en esas palabras”.
Este es el mundo del discurso en su perfección divina: un cuerpo muy definido, infundido con una espiritualidad que emana del núcleo del alma humana.
Pero podemos hacer mal uso de esta habilidad terriblemente y destruirla. El Gemara (Pesqués 113b, y otros lugares) define el discurso insincero como “uno [thing] en la boca, uno [thing] en el corazón ”(Echad B’Peh, V’echad B’lev). Esto no significa necesariamente que las palabras son técnicamente falsas. Más bien, que no son sinceros. No emanan desde el núcleo de la esencia de la persona. Son huecos y sin lugar de cualquier elemento del alma. Las palabras que son halagos, chorleas, sin sentido, etc., son ejemplos de ese fenómeno.
Una máquina no tiene alma y nunca tendrá una. Puede reciclar frases encantadoras de un vasto grupo de palabras y escritos, pero no puede hacer más que eso.
Entonces, si nos preguntáramos qué hay de malo en Chatgpt, seríamos negligentes al ir al kefirá y shmutz explicaciones. Mucho más importante es que nos roba de nuestra humanidad central, nuestra misma Tzelem Elokim. Expresarnos a nosotros mismos es un ejercicio para enfrentarse con sentimientos internos por un lado, y por otro lado, conectando con nuestro prójimo “esencia a la esencia”.
Necesitamos educar a nuestros hijos día tras día que se están robando su mayor facultad humana al recurrir a Chatgpt para escribir sus tareas y ensayos. Así como un niño que se vería obligado a usar solo dispositivos mecánicos para moverse pronto experimentaría músculos atrofiados y perdería su capacidad de caminar, así también, presionar los botones para producir escritos robará a una persona de una facultad aún más importante que caminar: La capacidad de conectarse con su propia alma y con otra Tzelem Elokim.
Volvamos a nuestra pregunta original: “¿Chat GPT nos reemplazará alguna vez?” Todo depende: si expresamos nuestra esencia espiritual a través del discurso y la escritura, no existe la menor posibilidad de que pueda reemplazarnos de ninguna manera. Pero si aprendemos a repetir sin pensar tópicos y declaraciones pro forma, sutilezas y palabras huecas, entonces las máquinas ciertamente nos reemplazarán en poco tiempo.
Y harán un trabajo mucho mejor.
(Originalmente aparecido en Mishpacha, número 1050)
This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.
Strictly Necessary Cookies
Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.
If you disable this cookie, we will not be able to save your preferences. This means that every time you visit this website you will need to enable or disable cookies again.