Tendrás que esperar más si quieres usar el impresionante modo de voz a lo 'Her' de ChatGPT

OpenAI acaba de presentar su nuevo modelo omnimodal de IA, GPT-4o. — OpenAI presentó en mayo su nuevo modelo omnimodal de IA, GPT-4o.

OpenAI anunció a bombo y platillo su tecnología más puntera a principios de mayo. La compañía presumía de sus avances en inteligencia artificial con GPT-4o, un modelo de lenguaje más avanzado que prometía dejarnos la boca abierta.

La tecnológica especializada en IA no eligió un momento casual para esto: la empresa liderada por Sam Altman se adelantó un día a la Google I/O 2024, el evento del año en el que el gigante de Mountain View tenía previsto presentar sus novedades en inteligencia artificial, seguramente en un movimiento bastante calculado. Pero eso es una historia diferente.

A pesar de que lo nuevo de OpenAI parecía que iba a llegar de manera inminente, finalmente la empresa de moda de Silicon Valley ha reconocido que su modo de voz avanzado para ChatGPT se tiene que retrasar. Algo parecido a lo que ha ocurrido en este mismo terreno con la IA de Apple, que los de Cupertino presentaron en su WWDC el pasado 10 de junio, pero que no se materializará hasta el año que viene —y en España incluso puede que tengamos que esperar un poco más—.

Qué es el modo de voz avanzado de GPT-4o

GPT-4o es un nuevo modelo omnimodal, es decir, capaz de entender audio, imagen y texto de forma única y no combinando varios modelos como hasta ahora. Y además es gratis.

En palabras de la compañía: “GPT-4o es nuestro modelo insignia más nuevo que proporciona inteligencia de nivel GPT-4, pero es mucho más rápido y mejora sus capacidades en texto, voz y visión”.

Hoy en día, añadían, “GPT-4o es mucho mejor que cualquier modelo existente a la hora de comprender y analizar las imágenes que compartes”. OpenAI ilustraba esta afirmación con un ejemplo: “Ahora puedes tomar una fotografía de un menú en un idioma diferente y hablar con GPT-4o para traducirla, conocer la historia y el significado de la comida y obtener recomendaciones”.

Otra de las mejoras del modelo es que admite más de 50 idiomas, lo que supone que cubre a un 97% de la población mundial.

En el futuro, avanzaban desde OpenAI, las mejoras permitirán una conversación de voz “más natural” en tiempo real y la capacidad de conversar con ChatGPT a través de vídeo también en tiempo real. El ejemplo que utilizaban en este caso es que podrás mostrarle a esta IA un juego de deportes en vivo y pedirle que te explique las reglas.

Sin embargo, en la presentación de este modelo, parecía que ese futuro estaba a la vuelta de la esquina. La realidad es que todavía tendremos que esperar.

La siguiente tecnología para ChatGPT está en marcha: OpenAI confirma ya trabaja en GPT-5

Por qué OpenAI ha decidido retrasar las capacidades mejoradas de voz para ChatGPT

Cuando se presentó este modelo de lenguaje y el avance en interacción que suponía, OpenAI dijo que el modo de voz mejorado de GPT-4o llegaría “en las próximas semanas” y los usuarios de pago —de la suscripción ChatGPT Plus— tendrían “acceso temprano”.

Ahora, la empresa ha explicado que necesita más tiempo: “Habíamos planeado comenzar a implementar esto en versión alfa para un pequeño grupo de usuarios de ChatGPT Plus a fines de junio, pero necesitamos un mes más para alcanzar nuestro nivel de lanzamiento”.

Han achacado el retraso a tres motivos: “Estamos mejorando la capacidad del modelo para detectar y rechazar cierto contenido. También estamos trabajando para mejorar la experiencia del usuario y preparar nuestra infraestructura para escalar a millones mientras mantenemos respuestas en tiempo real”.

No obstante, la compañía ha confirmado que mantiene su plan inicial de desplegar la tecnología a un pequeño grupo de usuarios para recibir el feedback necesario sobre el que corregirla y mejorarla, en caso de que sea necesario.

En su comunicado han avanzado que tienen planificado que todos los usuarios Plus tengan acceso en otoño, pero que “los plazos exactos” dependen del cumplimiento de sus “altos estándares de seguridad y confiabilidad”.

Sobre las capacidades de vídeo y uso compartido de pantalla que también demostraron en su keynote de mayo, han comentado que también están “trabajando para implementarlas” y que irán informando conforme tengan novedades sobre cuándo se desplegarán.

“El modo de voz avanzado de ChatGPT puede comprender y responder con emociones y señales no verbales, acercándonos a conversaciones naturales en tiempo real con IA. Nuestra misión es brindarle estas nuevas experiencias cuidadosamente”, recuerdan.