ChatGPT suena más humano que nunca con el lanzamiento de GPT-4 Omni de OpenAI, capaz de procesar texto, audio y visión con poca o ninguna latencia.
Durante la Actualización de Primavera de OpenAI en San Francisco, la Directora de Tecnología, Mira Murati, junto con el equipo de OpenAI, presentó GPT-4 Omni (GPT-4o), su modelo insignia más reciente, capaz de mantener conversaciones verbales en tiempo real. Murati declaró en el escenario: «GPT-4o proporciona inteligencia de nivel GPT-4, pero con una velocidad mucho mayor. Creemos que GPT-4o está transformando el paradigma hacia el futuro de la colaboración, donde la interacción se vuelve mucho más natural y fácil».
GPT-4o responde instantáneamente a instrucciones verbales con una voz amigable que sorprendentemente se asemeja a Scarlett Johansson, quien prestó su voz para el asistente de IA en la película «Her». Basándonos en las demostraciones, esta tecnología esencialmente hace que la película «Her» se convierta en realidad. El discurso de GPT-4o tiene entonación emocional, mostrando entusiasmo en algunas ocasiones y riendo en otras. Además, puede identificar las emociones y el tono en el habla de los usuarios. El equipo de OpenAI mostró conversaciones con los chatbots de IA casi sin demora, e incluso el chatbot pudo cambiar rápidamente de tema cuando fue interrumpido.
Si bien las capacidades de audio de GPT-4o son impresionantes, Omni funciona en varios medios. Mientras que ChatGPT procesaba previamente texto, visión y audio a través de una red de modelos de IA, GPT-4o es un modelo único capaz de procesar los tres al mismo tiempo, lo que hace que todo funcione mucho más rápido. Puedes mostrarle a GPT-4o una imagen de un problema de matemáticas con la cámara de tu teléfono mientras hablas verbalmente con el modelo. OpenAI afirma que su nuevo modelo insignia opera a niveles de inteligencia GPT-4 al tiempo que establece marcas de agua innovadoras en capacidades multilingües, de audio y visión.
Después de esta impresionante demostración, OpenAI está lanzando GPT-4o como una aplicación de escritorio para macOS. Los usuarios de pago pueden obtener acceso a la aplicación macOS hoy, pero GPT-4o estará disponible para usuarios gratuitos en el futuro. La aplicación de escritorio permitirá a los usuarios iniciar conversaciones de voz con ChatGPT directamente desde sus computadoras y compartir sus pantallas con mínima fricción. El sitio web de ChatGPT también recibirá una actualización simplificada.
Los miembros del equipo de OpenAI, Mark Chen y Barret Zoph, demostraron cómo funciona el modelo multimodal de IA en tiempo real en el escenario el lunes. La conversación en tiempo real funcionó principalmente bien, aunque a veces GPT-4o tuvo dificultades para comprender la intención de los usuarios. Sin embargo, el modelo se desenvolvió elegantemente al navegar por los errores.
El modelo de voz fue capaz de cambiar entre diferentes tonos al contar una historia, reír e incluso decir «Qué dulce de tu parte» en un momento determinado. Es evidente que el equipo de OpenAI se ha asegurado de que GPT-4o sea más emocional y conversacional que los modelos de voz anteriores. En las demostraciones, ChatGPT sonaba más humano que nunca.
Un miembro del equipo de OpenAI confirmó en un tweet que la empresa ha estado probando GPT-4o en el área de chatbots de LMSYS Org como «soy-también-un-buen-chatbot-gpt2». Como muchos sospechaban y Sam Altman insinuó, estos eran modelos OpenAI en proceso. Según el personal, el último chatbot superó claramente a la competencia en varias métricas.
El lanzamiento de GPT-4o se siente como un momento crucial para el futuro de los chatbots de IA. Esta tecnología supera muchas de las latencias incómodas que plagaron a los primeros chatbots. Es fácil imaginar una versión de Siri que sea bastante útil con GPT-4o. Estas capacidades en tiempo real son probablemente gracias a los últimos chips de inferencia de Nvidia, que Murati mencionó antes de finalizar la presentación. De todos modos, OpenAI reafirmó su dominio como líder en innovación de IA con la demostración del lunes. Ahora, esperamos ver si la presentación nos brindó una descripción precisa de lo que esto puede hacer, o si fue cuidadosamente manejada para evitar fallas evidentes.