Noticias
El nuevo modelo AI de Voice AI de Openai GPT-4O-Transcribe le permite agregar discurso a sus aplicaciones de texto existentes en segundos
Published
6 días agoon

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Los modelos de AI de voz de OpenAi se han metido en problemas antes con el actor Scarlett Johansson, pero eso no impide que la compañía continúe avanzando en sus ofertas en esta categoría.
Hoy, el fabricante de chatgpt ha presentado tres, todos los nuevos modelos de voz propietarios llamados GPT-4O-transcribe, GPT-4O-Mini-transcribe y GPT-4O-MINI-TTSdisponible inicialmente en su interfaz de programación de aplicaciones (API) para que los desarrolladores de software de terceros creen sus propias aplicaciones en la cima, así como en un sitio de demostración personalizado, OpenAI.FM, que los usuarios individuales pueden acceder para pruebas y diversión limitadas.
Además, las voces del modelo GPT-4O-Mini-TTS se pueden personalizar desde varios pre-establecimiento a través de un mensaje de texto para cambiar sus acentos, tono, tono y otras cualidades vocales, incluida la transmisión de las emociones a las que el usuario les pide, lo que debería recorrer un largo camino para abordar cualquier inquietud que esté imitando deliberadamente la voz en particular (la compañía previamente se le dio el caso con el caso con Johansson, pero a la opción de abordar deliberadamente es que la Otración de la Otración es deliberadamente es deliberadamente que es una voz en particular del usuario (la compañía anteriormente negó que sea el caso con Johansson, pero a la Opción de la Otrada, que es más que imitando la voz en particular. de todos modos). Ahora depende del usuario decidir cómo quiere que suene su voz de IA al hablar.
En una demostración con VentureBeat entregado por videollamada, el miembro del personal técnico de Operai, Jeff Harris, mostró cómo usar el texto solo en el sitio de demostración, un usuario podría obtener la misma voz para sonar como un científico loco de carcajadas o un maestro de yoga zen y tranquilo.
Descubrir y refinar nuevas capacidades dentro de la base GPT-4O
Los modelos son variantes del modelo GPT-4O existente OpenAI lanzado en mayo de 2024 y que actualmente impulsa la experiencia de texto y voz de ChatGPT para muchos usuarios, pero la compañía tomó ese modelo base y lo capacitó con datos adicionales para que se produzca en la transcripción y el habla. La compañía no especificó cuándo los modelos podrían venir a ChatGPT.
“CHATGPT tiene requisitos ligeramente diferentes en términos de compensaciones de costo y rendimiento, por lo que aunque espero que se muden a estos modelos a tiempo, por ahora, este lanzamiento se centra en los usuarios de API”, dijo Harris.
Está destinado a reemplazar al modelo de texto a voz de código abierto de dos años de OpenAI, que ofrece tasas de error de palabras más bajas en los puntos de referencia de la industria y un mejor rendimiento en entornos ruidosos, con diversos acentos y a diferentes velocidades de voz, en más de 100 idiomas.
La compañía publicó una tabla en su sitio web que muestra cuánto más bajas son las tasas de error de los modelos GPT-4O-Transcribe para identificar palabras en 33 idiomas, en comparación con Whisper, con un 2.46% impresionantemente bajo en inglés.
“Estos modelos incluyen cancelación de ruido y un detector de actividad de voz semántica, que ayuda a determinar cuándo un altavoz ha terminado un pensamiento, mejorando la precisión de la transcripción”, dijo Harris.
Harris le dijo a VentureBeat que la nueva familia del modelo GPT-4O-Transcribe no está diseñada para ofrecer “diarización” o la capacidad de etiquetar y diferenciar entre diferentes altavoces. En su lugar, está diseñado principalmente para recibir una (o posiblemente múltiples voces) como un solo canal de entrada y responder a todas las entradas con una sola voz de salida en esa interacción, por mucho tiempo que tarda.
La compañía está organizando aún más una competencia para el público en general para encontrar los ejemplos más creativos de usar su sitio de voz de demostración OpenAI.FM y compartirlos en línea etiquetando la cuenta de @openai en X. El ganador recibirá una radio de ingeniería adolescente personalizada con logotipo de OpenAi, que Openai Head of Product, la plataforma Olivier Godement dijo que es uno de los tres en el mundo.
Una mina de oro de aplicaciones de audio
Las mejoras los hacen particularmente adecuados para aplicaciones como los centros de llamadas de los clientes, la transcripción de notas de reunión y los asistentes con IA.
Impresionantemente, los agentes recién lanzados de la compañía SDK de la semana pasada también permiten a aquellos desarrolladores que ya han creado aplicaciones sobre sus modelos de idiomas grandes basados en texto como el GPT-4O regular para agregar interacciones con voz fluida con solo “nueve líneas de código”, según un presentador durante un livestro de YouTube OpenAi que anuncia los nuevos modelos (embarcados anteriormente).
Por ejemplo, una aplicación de comercio electrónico creada en la cima de GPT-4O ahora podría responder a las preguntas de los usuarios por turnos como “Cuéntame sobre mis últimos pedidos” en el habla con solo segundos de ajuste el código agregando estos nuevos modelos.
“Por primera vez, presentamos la transmisión de voz a texto, lo que permite a los desarrolladores ingresar continuamente audio y recibir un flujo de texto en tiempo real, haciendo que las conversaciones se sientan más naturales”, dijo Harris.
Aún así, para aquellos desarrolladores que buscan experiencias de voz de IA de baja latencia en tiempo real, OpenAi recomienda usar sus modelos de voz a voz en la API de tiempo real.
Precios y disponibilidad
Los nuevos modelos están disponibles inmediatamente a través de la API de OpenAI, con el precio de la siguiente manera:
• GPT-4O-Transcribe: $ 6.00 por 1 m tokens de entrada de audio (~ $ 0.006 por minuto)
• GPT-4O-Mini-Transcribe: $ 3.00 por 1 m tokens de entrada de audio (~ $ 0.003 por minuto)
• GPT-4O-MINI-TTS: $ 0.60 por 1 m tokens de entrada de texto, $ 12.00 por 1 m tokens de salida de audio (~ $ 0.015 por minuto)
Sin embargo, llegan a una época de competencia más feroz en la transcripción de IA y el espacio del habla, con empresas de IA dedicadas del habla como once que ofrece su nuevo modelo de escriba que admite diarización y cuenta con una tasa de error reducida de 3,3% en inglés, y un precio de $ 0.40 por hora de entrada (o $ 0.006 por minuto, aproximadamente, equivalente).
Otra startup, Hume AI ofrece un nuevo modelo de octava TTS con la personalización de la pronunciación e inflexión de la pronunciación e emocional a nivel de oración, basada completamente en las instrucciones del usuario, no en cualquier voz preestablecida. El precio de Octave TTS no es directamente comparable, pero hay un nivel libre que ofrece 10 minutos de audio y los costos aumentan desde allí entre
Mientras tanto, los modelos de audio y discurso más avanzados también están llegando a la comunidad de código abierto, incluida una llamada Orpheus 3B que está disponible con una licencia permisiva de Apache 2.0, lo que significa que los desarrolladores no tienen que pagar costos para ejecutarlo, siempre que tengan el hardware o los servidores en la nube correctos.
Adopción de la industria y resultados tempranos
Varias compañías ya han integrado los nuevos modelos de audio de Openai en sus plataformas, informando mejoras significativas en el rendimiento de la IA de voz, según testimonios compartidos por OpenAI con VentureBeat.
Eliseai, una compañía centrada en la automatización de la administración de propiedades, encontró que el modelo de texto a voz de Openi permitió interacciones más naturales y emocionalmente ricas con los inquilinos.
Las voces mejoradas hicieron que el arrendamiento, el mantenimiento y la programación de la gira funcionen con una mayor atracción, lo que llevó a una mayor satisfacción del inquilino y mejoras tasas de resolución de llamadas.
Decagon, que construye experiencias de voz con IA, vio una mejora del 30% en la precisión de la transcripción utilizando el modelo de reconocimiento de voz de OpenAI.
Este aumento en la precisión ha permitido que los agentes de IA de Decagon se desempeñen de manera más confiable en escenarios del mundo real, incluso en entornos ruidosos. El proceso de integración fue rápido, con un decagón incorporando el nuevo modelo en su sistema en un día.
No todas las reacciones al último lanzamiento de OpenAi han sido cálidas. El cofundador del software de Dawn AI App Analytics Ben Hylak (@benhylak), un ex diseñador de interfaces humanas de Apple, publicado en X que, si bien los modelos parecen prometedores, el anuncio “se siente como un retiro de la voz en tiempo real”, lo que sugiere un cambio del enfoque anterior de Openai en la IA conversacional de baja latencia a través de Chatgpt.
Además, el lanzamiento fue precedido por una filtración temprana en X (anteriormente Twitter). TestingCatalog News (@TestingCatalog) publicó detalles sobre los nuevos modelos varios minutos antes del anuncio oficial, enumerando los nombres de GPT-4O-Mini-TTS, GPT-4O-TRANSCRIE y GPT-4O-Mini-Trancribe. La fuga fue acreditada a @stiventhedev, y la publicación rápidamente ganó tracción.
Pero mirando hacia el futuro, Operai planea continuar refinando sus modelos de audio y está explorando las capacidades de voz personalizadas al tiempo que garantiza la seguridad y el uso responsable de la IA. Más allá del audio, OpenAi también está invirtiendo en IA multimodal, incluido el video, para habilitar experiencias más dinámicas e interactivas basadas en agentes.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.

You may like
Noticias
Google presenta Gemini 2.5 Pro con razonamiento de cadena de pensamiento incorporado
Published
9 horas agoon
25 marzo, 2025
Google LLC dijo hoy que está actualizando su Familia de Modelo de Inteligencia Artificial de Géminis insignia al presentar una versión experimental de Gemini 2.5 Pro.
La compañía agregó que es la “más inteligente” hasta ahora e incluirá capacidades de “pensamiento” incorporadas. Todos los próximos modelos Gemini 2.5 serán modelos, capaces de desglosar tareas en múltiples pasos y razonar a través de ellos antes de responder. La compañía dijo que esto dará como resultado un mejor rendimiento y una mayor precisión.
“En el campo de la IA, la capacidad de un” razonamiento “de un sistema se refiere a algo más que clasificación y predicción”, explicó Koray Kavukcuoglu, director de tecnología de Google Deepmind, el brazo de investigación de la compañía, explicó en el anuncio. “Se refiere a su capacidad para analizar información, sacar conclusiones lógicas, incorporar contexto y matices, y tomar decisiones informadas”.
Google introdujo por primera vez esta capacidad de pensamiento en su modelo de IA Experimental Gemini 2.0 Flash Thinking, que se lanzó en diciembre. Para crear el modelo, la compañía exploró las prácticas de construcción de IA, que incluyen el aprendizaje de refuerzo y la solicitud de la cadena de pensamiento.
En el caso de Gemini 2.0 Flash Thinking, los usuarios pueden activar la capacidad de pensamiento haciendo clic en un botón al solicitar el modelo y luego “pensaría” a través de las tareas. También muestra su razonamiento, lo que permite al usuario ver el proceso y la cadena de pensamiento que llevó llegar a su conclusión.
Google ya no agrega la etiqueta de “pensar” a sus modelos.
La compañía dijo que con la nueva capacidad de razonamiento, Gemini 2.5 Pro Experimental ha logrado un nuevo nivel de rendimiento por encima del modelo base debido al post-entrenamiento. Es el modelo más avanzado para tareas complejas y superó la tabla de clasificación de Lmarena, que mide las preferencias humanas, por un margen significativo.
También lideró con un 18.8% en el último examen de la humanidad, un conjunto de datos diseñado por cientos de expertos en la materia sobre el conocimiento y el razonamiento humano, en comparación con el 14% para el O3-Mini de OpenAI y el 8.6% de Deepseek R1. Para el contexto, O3-Mini y R1 son modelos pensantes capaces de razonamiento complejo de la misma manera que Google ha diseñado Gemini 2.5 Pro Experimental.
“Nos hemos centrado en el rendimiento de la codificación, y con Gemini 2.5 hemos logrado un gran salto sobre 2.0, con más mejoras por venir”, dijo Kavukcuoglu.
https://www.youtube.com/watch?v=rlcbspgos6s
Para demostrar las nuevas capacidades del modelo, los investigadores de Google lo llevaron a generar un videojuego de dinosaurio de estilo sin fin utilizando HTML, CSS y JavaScript utilizando un solo mensaje y lo hizo con éxito en un solo pase.
El modelo experimental de Gemini 2.5 Pro viene con una ventana de contexto de 1 millón de tokens, lo que le permite ingerir documentos, audio y videos extremadamente grandes, que son alrededor de 1,5 millones de palabras. Google dijo que tiene la intención de expandir la ventana a 2 millones.
Con su gran ventana de contexto y su alto rendimiento, Gemini 2.5 Pro proporciona una base poderosa para los agentes de IA. Esto les permite procesar vastas conjuntos de datos y abordar problemas complejos de manera más efectiva. Debido a que los agentes de IA operan y planean de forma autónoma, la capacidad de razonamiento mejorada del modelo mejorará significativamente su capacidad para comprender los datos y utilizar herramientas para completar las tareas.
Los desarrolladores y los usuarios empresariales pueden comenzar a experimentar con Gemini 2.5 Pro en Google AI Studio ahora, y los usuarios avanzados de Gemini pueden seleccionarlo inmediatamente desde el descenso en el escritorio y el móvil. Los usuarios de Vertex AI, la plataforma de aprendizaje automático administrado de Google para construir e implementar IA, podrán experimentar con el nuevo modelo en las próximas semanas.
TXGEMMA: modelos de IA abiertos para mejorar el desarrollo terapéutico
Además del experimental Gemini 2.5 Pro, Google también anunció TXGEMMA, una colección de modelos de IA abiertos diseñados para mejorar la eficiencia del desarrollo de fármacos y terapia utilizando modelos de idiomas grandes.
Los nuevos modelos se basan en Gemma, los modelos livianos de código abierto existentes de Google Deepmind, específicamente entrenados para comprender y predecir las propiedades de los medicamentos y las terapias génicas a lo largo de todo el proceso de descubrimiento. Esto incluye identificar entradas prometedoras y predecir resultados de ensayos clínicos.
Google entrenó a la familia de modelos de TXGEMMA de Gemma 2 utilizando 7 millones de ejemplos de entrenamiento. Los modelos vienen en tres tamaños, incluidos 2 mil millones, 9 mil millones y 27 mil millones de parámetros.
Cada tamaño incluye una versión de “predicción”, adaptada para tareas estrechas extraídas de los comunes de datos terapéuticos. Los ejemplos de estas tareas específicas incluyen clasificar los medicamentos para la capacidad, como el cruce de la barrera hematoencefálica, la regresión para predecir la capacidad de unión de un fármaco o generar otros tipos de fármacos basados en una reacción particular.
TXGEMMA 9B y 27B también incluyen versiones de “CHAT”. Estos modelos explican su razonamiento, responden preguntas y entablan una conversación. Como resultado, los investigadores podrían preguntarle a Txgemma-Chat por qué predijo que una molécula particular podría ser tóxica y profundizar en la estructura de la molécula.
Al igual que cualquier otro modelo que Google construya, TXGEMMA está diseñado para la integración en sistemas de IA agente avanzados e incluye el uso de herramientas para abordar problemas de investigación más complejos.
“Los modelos de lenguaje estándar a menudo luchan con tareas que requieren conocimiento externo actualizado o razonamiento de varios pasos”, Shekofeh Azizi, científico de investigación del personal de Google. “Para abordar esto, hemos desarrollado Agentic-TX, un sistema de agente centrado en la terapéutica impulsado por Gemini 2.0 Pro”.
Agentic-TX está equipado con 18 herramientas que incluyen TXGEMMA para razonamiento de varios pasos; Herramientas de búsqueda generales de PubMed, Wikipedia y la Web; herramientas moleculares específicas; y herramientas de genes y proteínas. Esta herramienta de agente de IA puede usarse para orquestar el trabajo de diseño de investigación terapéutica y responder preguntas de investigación de varios pasos para científicos y médicos.
TXGEMMA está disponible hoy en Vertex AI Model Garden y abrazando la cara.
Imagen: Google
Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido libre.
Un clic a continuación admite nuestra misión de proporcionar contenido gratuito, profundo y relevante.
Únete a nuestra comunidad en YouTube
Únase a la comunidad que incluye a más de 15,000 expertos en #Cubealumni, incluido el CEO de Amazon.com, Andy Jassy, el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger y muchos más luminarios y expertos.
GRACIAS
Noticias
6 indicaciones de chatgpt para adolescentes listos para escalar su negocio
Published
11 horas agoon
25 marzo, 2025
pez dorado saltando a un tanque más grande
getty
Muchos empresarios adolescentes logran lanzar sus pequeñas empresas, pero luchan con el siguiente paso: expandir sus operaciones. Atrapado entre el trabajo escolar, la práctica deportiva y los compromisos familiares, estos jóvenes dueños de negocios necesitan estrategias de crecimiento eficientes para las nuevas empresas adolescentes.
La investigación de Junior Achievement muestra que el interés adolescente en el emprendimiento sigue siendo fuerte, con alrededor de dos tercios de los adolescentes que expresan interés en iniciar negocios. Sin embargo, existe una brecha entre lanzar y escalar una empresa comercial adolescente.
Pasar de la startup a la fase de crecimiento exige un nuevo conjunto de herramientas para los dueños de negocios adolescentes. ChatGPT puede ofrecer estrategias de escala de negocios adolescentes que de otro modo costarían cientos en tarifas de consultoría. Estas seis indicaciones de ChatGPT ayudan a los empresarios adolescentes a crear planes de crecimiento y expansión de negocios concretos.
Desde el lanzamiento hasta la escala: un desafío diferente para el crecimiento empresarial adolescente
Los empresarios adolescentes deben cambiar su pensamiento al pasar del lanzamiento a la fase de crecimiento de su pequeña empresa. Necesitan pasar de crear un producto o servicio a sistemas de construcción que respalden más clientes y un mayor volumen para el crecimiento de los negocios adolescentes sostenibles.
Los empresarios adolescentes a menudo comienzan en industrias que necesitan una inversión inicial mínima y utilizan sus habilidades existentes. Las ideas de negocios adolescentes más populares incluyen industrias de servicios (tutoría, sesión de mascotas, cuidado del césped), campos creativos (arte, música, diseño), servicios digitales (gestión de redes sociales, creación de contenido) y comercio electrónico (productos hechos a mano, arbitraje minorista).
Los obstáculos comunes para los negocios adolescentes en crecimiento incluyen:
- Restricciones de tiempo entre el trabajo escolar y las operaciones comerciales
- Aumento de la complejidad que requiere nuevas habilidades comerciales
- Sobrecarga de decisiones al enfrentar múltiples rutas de crecimiento para estudiantes empresarios
ChatGPT puede optimizar estos desafíos con las preguntas correctas. Aquí hay seis indicaciones diseñadas para escalar empresas adolescentes y nuevas empresas.
1. El planificador de crecimiento estratégico
“Soy un emprendedor adolescente con [describe business] que ha estado operando para [time period]. Mis ingresos mensuales son aproximadamente [amount]y tengo [number] de clientes. Quiero escalar mi negocio pero necesito priorizar mi tiempo y recursos limitados. Cree un plan de crecimiento de 90 días que incluya: 1) áreas de alto impacto para centrarse en las métricas de crecimiento específicas para rastrear, 3) una línea de tiempo de semana a semana y 4) señales de advertencia que indican que necesito ajustar mi estrategia “.
Cómo usarlo: Teen podría ingresar detalles sobre su negocio de pegatinas personalizadas, que ha estado operando durante 6 meses con ingresos mensuales de $ 400 y 30 clientes regulares. Este aviso ayuda al adolescente a centrarse en lo que hace que el negocio avance. Al usar la respuesta, implementa una recomendación a la vez.
2. La primera toma de decisiones de alquiler
“Colojo un adolescente [type of business]y estoy considerando hacer mi primera contratación. Mis ingresos mensuales son [amount]y mi ganancia es [amount]. Gastando [number] horas semanales en [list 3-5 main tasks]. Cree un análisis de 1) si debo contratar ahora o esperar hasta alcanzar hitos financieros específicos, 2) qué posición agregaría el mayor valor, 3) cómo calcular lo que puedo pagar, 4) responsabilidades mínimas que esta persona debe manejar, y 5) preguntas de entrevista adaptadas para trabajar con un propietario de un negocio adolescente “.
Cómo usarlo: Teen podría usar este aviso para su negocio de cuidado del césped con un ingreso mensual de $ 1,200, ganancias de $ 800 y 15 horas semanales dedicadas a cortar, recortar, comunicación del cliente y programación. Esté atento a estas señales de advertencia que está contratando demasiado pronto: los márgenes de ganancias no respaldan los costos laborales adicionales, los procesos comerciales carecen de documentación o no ha identificado tareas que generen ingresos directamente.
3. El especialista en retención de clientes
“Cuando era emprendedor adolescente con [number] clientes actuales para mi [type of business]Quiero mejorar la retención de los clientes. Mi negocio sirve [brief description of target audience]. La tasa de retención de mi cliente es aproximadamente [percentage or description if unknown]. Genere: 1) Un mapa de viaje del cliente que destaca los posibles puntos de entrega, 2) tres estrategias de retención asequible con pasos de implementación, 3) plantillas para comunicaciones de seguimiento y 4) un sistema simple para rastrear la efectividad de estos esfuerzos “.
Cómo usarlo: Teen podría preguntar sobre su servicio de tutoría de matemáticas, que tiene 25 clientes actuales que atienden a estudiantes de secundaria que luchan con el pre-álgebra y una tasa de retención de aproximadamente el 50% después del primer mes. Centrarse en la retención generalmente cuesta 5-25 veces menos que adquirir nuevos clientes, lo que lo hace ideal para empresas adolescentes con recursos limitados.
4. El optimizador del canal de marketing
“Soy dueño de un negocio adolescente que dirige un [type of business] dirigido a [ideal customer]. He estado comercializando a través de [list current channels]. Mi presupuesto mensual de marketing es [amount]y el costo de adquisición de mi cliente es aproximadamente [amount if known]. Ayúdame a optimizar mi marketing mediante 1) evaluar qué canales probablemente ofrecen el mejor ROI para mi negocio, 2) crear una plantilla de calendario de contenido para mis 2 canales recomendados principales, 3) desarrollar cinco ganchos o titulares para mi público objetivo, y 4) sugerir un marco de prueba A/B simple para mejorar la efectividad de marketing “.
Cómo usarlo: Teen podría describir su tienda de casos telefónicos personalizados dirigidos a estudiantes de secundaria, comercializado a través de Instagram, Tiktok y el boca a boca con un presupuesto mensual de $ 50. Implemente las recomendaciones del calendario de contenido, pero pruebe nuevos canales con pequeñas inversiones antes de cometer recursos. La mayoría de las empresas adolescentes ven los mejores resultados de las plataformas 1-2.
5. El estratega de precios
“Soy un emprendedor adolescente vendiendo [product/service] en [current price point]. Mis costos principales son [list main costs]y mis clientes objetivo son
. Estoy considerando ajustar mis precios a medida que escala. Proporcione: 1) Un análisis de diferentes modelos de precios que podría considerar, 2) cómo calcular los puntos de precio óptimos según mis costos y el mercado, 3) lenguaje para comunicar los cambios de precios a los clientes existentes y 4) formas de probar nuevos precios con un riesgo mínimo “.
Cómo usarlo: Teen podría preguntar sobre sus sesiones de fotografía con un precio de $ 75 por hora con costos que incluyen equipos, edición de la suscripción del software y transporte, dirigidos a familias y estudiantes de último año de secundaria. Al probar nuevos precios, considere ofrecer nuevos precios solo a nuevos clientes inicialmente, crear niveles premium y agrupar valor adicional con aumentos de precios.
6. El implementador de automatización
“Cuando era adolescente corriendo un creciente [type of business]Estoy pasando demasiado tiempo [list repetitive tasks]. Tengo aproximadamente [number] horas semanales para trabajar en mi negocio en torno a los compromisos escolares. Tengo habilidades de tecnología básica y un presupuesto mensual de aproximadamente [amount] para herramientas. Cree un plan para automatizar o optimizar mi flujo de trabajo, incluidas 1) tareas específicas para automatizar primero, 2) instrucciones paso a paso para implementar cada automatización, 3) herramientas asequibles adecuadas para mi situación y 4) cómo medir los ahorros de tiempo “.
Cómo usarlo: Teen podría ingresar detalles sobre su negocio de gestión de redes sociales, pasar demasiado tiempo en programar publicaciones, enviar facturas y hacer un seguimiento con los clientes, con aproximadamente 10 horas semanales disponibles en la escuela. Las áreas más valiosas para los adolescentes para automatizar incluyen la programación de las redes sociales, los seguimientos de correo electrónico, la reserva de citas y la contabilidad básica.
Convertir los planes de crecimiento en realidad para el éxito empresarial adolescente
Escalar un negocio adolescente requiere una planificación cuidadosa y una acción decisiva. Si bien estas indicaciones de chatGPT proporcionan marcos valiosos para los emprendedores adolescentes, su efectividad depende de la implementación.
La investigación muestra que los emprendedores adolescentes exitosos trabajan en industrias con bajas barreras de entrada, incluidos los negocios de servicios (cuidado de niños, cuidado del césped, tutoría), empresas creativas (enseñanza de arte, lecciones de música), servicios digitales (diseño gráfico, gestión de redes sociales) y minorista (productos hechos a mano, revelación en línea). Estos sectores permiten un crecimiento sin una gran inversión de capital para los dueños de negocios de secundaria.
Para los empresarios adolescentes que buscan maximizar estas herramientas de IA para el crecimiento empresarial:
Establecer sesiones de implementación semanales. Programe tiempos específicos para trabajar en iniciativas de crecimiento de sus planes generados por IA para su negocio estudiantil. Incluso 30 minutos dos veces por semana puede impulsar un progreso sustancial cuando se enfoca en las actividades comerciales adolescentes adecuadas.
Seguimiento de cambios cuantitativamente. Antes de hacer cambios sugeridos por estas indicaciones, documente sus métricas de referencia: ingresos, recuento de clientes y tiempo dedicado a varias tareas. Esto crea responsabilidad y ayuda a evaluar qué estrategias de crecimiento empresarial funcionan.
Crear una junta asesora. Invite a 2-3 adultos de confianza con experiencia comercial relevante para revisar los planes de crecimiento empresarial adolescente trimestralmente. Pueden detectar problemas potenciales y conectarlo con recursos valiosos.
Expansión de equilibrio con sostenibilidad. El crecimiento que compromete el trabajo escolar o el bienestar personal conduce a problemas. Los emprendedores adolescentes más exitosos mantienen el rendimiento académico mientras construyen sus negocios.
A medida que su negocio adolescente crece, revise estas indicaciones de chatgpt cada pocos meses con información actualizada. Cada fase de escala presenta nuevos desafíos, pero con los enfoques sistemáticos, los jóvenes empresarios pueden construir empresas que crean un impacto significativo mucho más allá de la escuela secundaria.
Noticias
‘Insane’: OpenAI presenta la generación de imágenes nativas de GPT-4O y ya está cautivando a los usuarios
Published
12 horas agoon
25 marzo, 2025
Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Estamos llegando en el aniversario de un año desde que Operai lanzó su primer modelo “Omni” o multimodal, GPT-4O en mayo de 2024, pero ese viejo estado todavía tiene algunos trucos bajo la manga.
Case-in-Point, hoy OpenAi finalmente encendió las capacidades nativas de generación de imágenes multimodales de GPT-4O para los usuarios de su exitoso chatbot chatgpt en los niveles de uso plus, profesionales y de uso gratuitos, aunque la compañía dijo que pronto también estaría disponible para Enterprise, EDU y a través de su interfaz de programación de aplicaciones (API).
A diferencia del modelo de imagen AI generativo anterior disponible en ChatGPT: Dall-E 3 de OpenAI, un modelo de transformador de difusión clásico que fue entrenado para reconstruir imágenes a partir de indicaciones de texto al eliminar el ruido de los píxeles: este nuevo generador de imágenes es parte del mismo modelo que escupe texto y código, ya que OpenAi entrenó todo el modelo para comprender todas estas formas de medios de comunicación a una vez.
El presidente de Openai, Greg Brockman, había previsualizado hace mucho tiempo esta capacidad nativa de GPT-4O en mayo de 2024, pero por razones que aún siguen desconocidas públicamente, la compañía se mantuvo hasta ahora, luego del lanzamiento público de lo que muchos usuarios de IA vieron como una característica similar de Google AI Studio con su modelo experimental Gemini 2 Flash.
Esto ha resultado en un generador de imágenes de mayor calidad que produce muchas más imágenes realistas y texto preciso horneado, y ya está impresionando a los usuarios, uno de los cuales llama a la calidad “loca”.
Del mismo modo (juego de palabras), OpenAi todavía no ha dicho con precisión en qué datos se capacitaron las capacidades de generación de imágenes de GPT-4O, y dada la historia de la compañía y otros proveedores de modelos, probablemente incluye muchas obras de arte raspadas de la web, algunas de las cuales probablemente tienen derechos de autor, lo que probablemente se enojará a los artistas detrás de ellos.
Traer la generación de imágenes a Chatgpt y Sora
OpenAI ha tenido como objetivo hacer que la generación de imágenes sea una capacidad central de sus modelos de IA. Con GPT-4O, los usuarios ahora pueden generar imágenes directamente en ChatGPT, refinandolas a través de la conversación y ajustando los detalles sobre la marcha.
El modelo también se integra en Sora, la plataforma de video de videoceneración de OpenAI, expandiendo aún más las capacidades multimodales.
En un anuncio en X, Operai confirmó que la generación de imágenes de GPT-4O está diseñada para:
- Prender el texto con precisión dentro de las imágenes, permitiendo la creación de signos, menús, invitaciones e infografías.
- Siga las indicaciones complejas con precisión, manteniendo una alta fidelidad incluso en composiciones detalladas.
- Construya sobre imágenes y texto anteriores, asegurando la consistencia visual en múltiples interacciones.
- Apoya varios estilos artísticos, desde el fotorrealismo hasta las ilustraciones estilizadas.
Los usuarios pueden describir una imagen en ChatGPT, especificando detalles como la relación de aspecto, los esquemas de color (códigos hexadecimales) o la transparencia, y GPT-4O la generará en un minuto.
Como la consultora independiente de IA Allie K. Miller escribió en X, es un “gran salto en la generación de texto”, y es “el mejor” modelo de generación de imágenes de IA que ha visto.

Capacidades clave y casos de uso
GPT-4O está diseñado para hacer que la generación de imágenes no solo sea visualmente impresionante sino también sea práctica. Algunas de las aplicaciones clave incluyen:
- Diseño y marca: genere logotipos, carteles y anuncios con una colocación de texto precisa.
- Educación y visualización: cree diagramas científicos, infografías e imágenes históricas para el aprendizaje.
- Desarrollo del juego: mantenga la consistencia del personaje en diferentes iteraciones de diseño.
- Creación de marketing y contenido: produce activos de redes sociales, invitaciones de eventos e ilustraciones digitales adaptadas a las necesidades de la marca.
Cómo GPT-4O mejora las imágenes generativas sobre Dall-E
Según el hilo oficial de OpenAI en X, GPT-4O presenta varias mejoras sobre modelos anteriores:
- Mejor integración de texto: A diferencia de los modelos de IA pasados que lucharon con un texto legible y bien ubicado, GPT-4O ahora puede incrustar con precisión las palabras dentro de las imágenes.
- Comprensión contextual mejorada: GPT-4O aprovecha el historial de chat, lo que permite a los usuarios refinar las imágenes de manera interactiva y mantener la coherencia en múltiples generaciones.
- Enlace mejorado de múltiples objetos: Si bien los modelos anteriores tenían dificultades para posicionar correctamente muchos objetos distintos en una escena, GPT-4O ahora puede manejar hasta 10-20 objetos a la vez.
- Adaptación de estilo versátil: El modelo puede generar o transformar imágenes en una variedad de estilos, desde bocetos dibujados a mano hasta fotorrealismo de alta resolución.
Limitaciones
A pesar de sus avances, GPT-4O todavía tiene algunos desafíos conocidos:
- Problemas de recorte: Las imágenes grandes, como los carteles, a veces se pueden recortar demasiado.
- Precisión de texto en scripts no latinos: Algunos personajes que no son ingleses pueden no rendir correctamente.
- Retención de detalles en texto pequeño: El texto altamente detallado o de fuentes pequeñas puede perder claridad.
- Precisión de edición: La modificación de partes específicas de una imagen puede afectar inadvertidamente otros elementos.
Operai aborda activamente estos problemas a través de refinamientos de modelos en curso.
Medidas de seguridad y etiquetado
Como parte del compromiso de OpenAI con el desarrollo responsable de la IA, todas las imágenes generadas por GPT-4O incluyen metadatos C2PA, lo que permite a los usuarios verificar su origen de IA.
Además, OpenAI ha creado una herramienta de búsqueda interna para ayudar a detectar imágenes generadas por IA.
Existen protectores estrictos para bloquear el contenido dañino y evitar el mal uso, como prohibir imágenes explícitas, engañosas o dañinas.
Operai también asegura que las imágenes con personas reales estén sujetas a mayores restricciones.
El CEO de Operai, Sam Altman, describió el lanzamiento como una “nueva marca de alta agua para la libertad creativa”, enfatizando que los usuarios podrán crear una amplia gama de imágenes, con OpenAI observando y refinando su enfoque basado en el uso del mundo real.
A medida que las imágenes generadas por AI se vuelven más precisas y accesibles, GPT-4O representa un paso adelante significativo para hacer que la generación de texto a imagen sea una herramienta convencional para la comunicación, la creatividad y la productividad.
Insights diarias sobre casos de uso comercial con VB diariamente
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI máximo.
Lea nuestra Política de privacidad
Gracias por suscribirse. Mira más boletines de VB aquí.
Ocurrió un error.

Related posts






































































































































































































































Trending
-
Startups10 meses ago
Remove.bg: La Revolución en la Edición de Imágenes que Debes Conocer
-
Recursos11 meses ago
Cómo Empezar con Popai.pro: Tu Espacio Personal de IA – Guía Completa, Instalación, Versiones y Precios
-
Tutoriales11 meses ago
Cómo Comenzar a Utilizar ChatGPT: Una Guía Completa para Principiantes
-
Startups9 meses ago
Startups de IA en EE.UU. que han recaudado más de $100M en 2024
-
Recursos11 meses ago
Suno.com: La Revolución en la Creación Musical con Inteligencia Artificial
-
Startups11 meses ago
Deepgram: Revolucionando el Reconocimiento de Voz con IA
-
Recursos10 meses ago
Perplexity aplicado al Marketing Digital y Estrategias SEO
-
Noticias8 meses ago
Dos periodistas octogenarios deman a ChatGPT por robar su trabajo