OpenAI lanza GPT-4o, su nuevo modelo de lenguaje con funciones multimodales

El pasado lunes, OpenAI presentó su modelo insignia más reciente, denominado GPT-4o, una evolución significativa en el campo de la inteligencia artificial generativa. El modelo, cuyo nombre incluye una «o» que representa «omni», promete manejar texto, voz y video de manera simultánea, marcando un hito en la integración de múltiples modalidades en una sola plataforma.

Innovaciones en multimodalidad

GPT-4o ofrece capacidades de «nivel GPT-4», mejoradas en múltiples modalidades y medios. Durante una presentación en las oficinas de OpenAI en San Francisco, la CTO Mira Murati explicó que “GPT-4o razona a través de voz, texto y visión. Y esto es increíblemente importante, porque estamos viendo el futuro de la interacción entre nosotros y las máquinas”. Esta mejora apunta a una interacción más natural y fluida con las tecnologías de inteligencia artificial, eliminando barreras entre las diferentes formas de comunicación humana y digital.

El modelo anterior de OpenAI, GPT-4 Turbo, podía analizar imágenes y texto, desempeñando tareas como extraer texto de imágenes o describir su contenido. Sin embargo, GPT-4o añade la capacidad de procesar y responder en voz, lo que abre un abanico de nuevas aplicaciones. Por ejemplo, los usuarios podrán interrumpir al ChatGPT mientras responde y recibir respuestas en tiempo real, con el sistema adaptándose a los matices de la voz del usuario y generando respuestas en diversos estilos emotivos, incluyendo el canto.

Mejoras en ChatGPT y aplicaciones futuras

Las mejoras en las capacidades de visión del ChatGPT permiten que el sistema responda rápidamente a preguntas basadas en imágenes o capturas de pantalla. Por ejemplo, puede identificar la marca de una prenda en una foto o explicar el contenido de un código de software en pantalla. Según Murati, estas funciones evolucionarán aún más, permitiendo en el futuro que ChatGPT «observe» eventos en vivo, como un partido deportivo, y explique sus reglas en tiempo real.

El objetivo es que la experiencia de interacción con ChatGPT se vuelva más natural y sencilla, enfocándose en la colaboración sin que los usuarios deban preocuparse por la interfaz de usuario. “Durante los últimos años, nos hemos centrado en mejorar la inteligencia de estos modelos… Pero esta es la primera vez que realmente estamos dando un gran paso adelante en cuanto a la facilidad de uso”, comentó Murati.

Ampliación del alcance y acceso

OpenAI también destaca que GPT-4o es más multilingüe, con un rendimiento mejorado en aproximadamente 50 idiomas. Además, en el API de OpenAI y en el Servicio Azure OpenAI de Microsoft, GPT-4o es el doble de rápido, la mitad de costoso y tiene límites de tasa más altos que su predecesor, GPT-4 Turbo. No obstante, la funcionalidad de voz del API de GPT-4o no estará disponible para todos los clientes de inmediato. OpenAI planea lanzar estas capacidades de audio inicialmente a un grupo reducido de socios de confianza para mitigar los riesgos de uso indebido.

El modelo GPT-4o está disponible en el nivel gratuito de ChatGPT desde hoy, y para suscriptores de los planes ChatGPT Plus y Team, con límites de mensajes cinco veces mayores. OpenAI aclara que ChatGPT cambiará automáticamente a GPT-3.5, un modelo más antiguo y menos capaz, cuando los usuarios alcancen el límite de uso.

Nuevas funcionalidades y disponibilidad

Además de las mejoras en el modelo, OpenAI ha lanzado una interfaz de usuario renovada para ChatGPT en la web, con una pantalla de inicio y un diseño de mensajes «más conversacional». También se ha presentado una versión de escritorio de ChatGPT para macOS, que permite a los usuarios hacer preguntas mediante un atajo de teclado o tomar y discutir capturas de pantalla. Los usuarios de ChatGPT Plus tendrán acceso prioritario a esta aplicación desde hoy, y se espera una versión para Windows más adelante en el año.

Por otra parte, la GPT Store, la biblioteca de OpenAI de herramientas y chatbots de terceros basados en sus modelos de IA, está ahora disponible para los usuarios del nivel gratuito de ChatGPT. Estos usuarios también podrán acceder a funciones que antes eran exclusivas para suscriptores, como la capacidad de memoria que permite a ChatGPT «recordar» preferencias para futuras interacciones, cargar archivos y fotos, y buscar respuestas en la web para preguntas actuales.

Con el lanzamiento de GPT-4o, OpenAI no solo está elevando el nivel de inteligencia artificial generativa, sino también ampliando su accesibilidad y utilidad, facilitando una integración más profunda y natural en la vida cotidiana de los usuarios.