El nuevo modelo ChatGPT de OpenAI, llamado GPT-4o, proporciona interacciones más parecidas a las humanas a través de un modo de voz, y es capaz de mantener conversaciones que incorporan texto, audio y vídeo en tiempo real
OpenAI ha anunciado su nuevo modelo de inteligencia artificial, denominado GPT-4o, que pronto impulsará algunas versiones del producto ChatGPT de la compañía. El ChatGPT actualizado puede responder con rapidez a las entradas de texto, audio y vídeo de su interlocutor en tiempo real, al tiempo que habla con inflexiones y expresiones que transmiten un fuerte sentido de la emoción y la personalidad.
La empresa demostró la imitación emocional del nuevo modo de voz durante una presentación en directo de OpenAI, en la que se presentaron la aplicación móvil ChatGPT y una nueva aplicación de escritorio, el 13 de mayo. Hablando con voz femenina y respondiendo al nombre ChatGPT, las capacidades conversacionales de la nueva IA parecían más parecidas a la simpática IA a la que ponía voz Scarlett Johansson en la película de ciencia ficción Her, de 2013, que a las respuestas más enlatadas y robóticas de las típicas tecnologías de asistente de voz.
«La nueva interacción voz a voz del GPT-4o se asemeja más a la interacción entre humanos», afirma Michelle Cohn, de la Universidad de California en Davis. «Gran parte de ello son los breves tiempos de retardo… pero una parte aún mayor es el nivel de expresividad emocional que genera la voz».
Durante una conversación con Mira Murati, directora técnica de la empresa, y otros dos empleados, ChatGPT, con GPT-4o, aconsejó a Mark Chen, de OpenAI, sobre su respiración pesada y acelerada diciéndole: «Tranquilo, no eres una aspiradora» y sugiriéndole un ejercicio de respiración. La IA también examinó visualmente un dibujo de Barret Zoph, de OpenAI, que incluía palabras y un corazón, respondiendo en tono efusivo: «Ah, ya veo que has escrito Me encanta ChatGPT, eres muy amable».
El nuevo ChatGPT también instruyó verbalmente a sus interlocutores en la resolución de una sencilla ecuación lineal, explicó la función del código informático e interpretó un gráfico que mostraba las líneas de temperatura que alcanzan su punto máximo en los meses de verano. Cuando se le pedía, la IA incluso volvía a contar varias veces un cuento inventado, alternando entre narraciones cada vez más dramáticas y cantando el final.
El nuevo modo de voz estará disponible por primera vez para los suscriptores de pago de ChatGPT Plus en las próximas semanas, afirma Sam Altman, CEO de OpenAI, en un post en la plataforma X.
ChatGPT fue capaz de recuperarse conversacionalmente incluso de algún que otro fallo técnico. Cuando se le pidió que interpretara las expresiones faciales y las emociones en un selfie de Zoph, la IA sugirió primero que estaba mirando una superficie de madera de una imagen anterior antes de que se le pidiera que evaluara la última imagen.
«Ahh, ahí vamos – parece que te sientes bastante feliz y alegre con una gran sonrisa y un toque de excitación», dijo ChatGPT. «Pase lo que pase, parece que estás de buen humor. ¿Te importaría compartir el origen de esas buenas vibraciones?».
Cuando se le dijo que era porque la demostración en directo con ChatGPT estaba mostrando lo «útil y sorprendente que eres», la IA respondió: «Para, me estás sonrojando».
Pero Murati reconoció que la versión actualizada de ChatGPT con GPT-4o -que, según la empresa, acabará estando disponible incluso para los usuarios gratuitos de ChatGPT- conlleva nuevos riesgos de seguridad por la forma en que incorpora e interpreta la información en tiempo real. OpenAI ha estado trabajando para incorporar «medidas de mitigación contra el uso indebido».
«Mantener conversaciones multimodales sin fisuras es realmente difícil, así que las demostraciones son impresionantes», afirma Peter Henderson, de la Universidad de Princeton (Nueva Jersey). «Pero a medida que se añaden más modalidades, la seguridad se hace mucho más difícil e importante: probablemente se tardará algún tiempo en identificar los posibles modos de fallo de seguridad con tal expansión de las entradas de las que hace uso el modelo».
Henderson también se mostró «curioso» por ver las condiciones de privacidad de OpenAI una vez que los usuarios de ChatGPT empiecen a compartir datos como audio y vídeo en directo, y por saber si los usuarios gratuitos pueden optar por no participar en la recopilación de datos que puedan utilizarse para entrenar futuros modelos de OpenAI.
«Dado que el modelo parece estar alojado fuera del dispositivo, el hecho de que puedas compartir la pantalla de tu escritorio con el modelo a través de Internet o grabar continuamente audio o vídeo parece aumentar el desafío para el lanzamiento de este producto en particular, si el plan es almacenar y utilizar esos datos», afirma.
Un chatbot de IA más antropomorfizado también representa otra amenaza: un bot que pueda fingir empatía a través de conversaciones de voz podría sonar potencialmente más agradable y persuasivo para la gente, según los estudios de Cohn y sus colegas. Esto aumenta el riesgo de que la gente confíe más en la información potencialmente inexacta y en los estereotipos prejuiciosos generados por esos grandes modelos lingüísticos.
«Esto tiene importantes implicaciones para la forma en que las personas buscan y reciben orientación de los grandes modelos lingüísticos, sobre todo porque no siempre generan información exacta», afirma Cohn.
Fuente WEB | Editado por CambioDigital OnLine