OpenAI lanza 4 nuevas capacidades de IA y ya están disponibles

Los anuncios del DevDay de OpenAI van dirigidos directamente a los empresarios que crean productos y funciones basados en IA.

0
11

OpenAI ha anunciado una serie de actualizaciones de sus servicios de API en un evento celebrado recientemente en San Francisco. Estas actualizaciones permitirán a los desarrolladores personalizar aún más los modelos, desarrollar nuevas aplicaciones basadas en la voz, reducir los precios de las indicaciones repetitivas y obtener un mayor rendimiento de los modelos más pequeños.

OpenAI ha anunciado cuatro importantes actualizaciones de la API durante el evento: Model Distillation, Prompt Caching, Vision Fine-Tuning y la introducción de un nuevo servicio de API llamado RealTime. Para los no iniciados, una API (interfaz de programación de aplicaciones) permite a los desarrolladores de software integrar funciones de una aplicación externa en su propio producto.

Destilación de modelos
La empresa ha añadido una nueva forma de mejorar las prestaciones de los modelos más pequeños, como el GPT-4o mini, ajustándolos a los resultados de los modelos más grandes, denominada destilación de modelos. En una entrada de blog, la empresa afirma que «hasta ahora, la destilación era un proceso de varios pasos, propenso a errores, que obligaba a los desarrolladores a orquestar manualmente múltiples operaciones en herramientas desconectadas, desde la generación de conjuntos de datos hasta el ajuste fino de los modelos y la medición de las mejoras de rendimiento».

Para que el proceso fuera más eficiente, OpenAI creó una suite de destilación de modelos dentro de su plataforma API. La plataforma permite a los desarrolladores crear sus propios conjuntos de datos utilizando modelos avanzados como GPT-4o y o1-preview para generar respuestas de alta calidad, ajustar un modelo más pequeño para seguir esas respuestas y, a continuación, crear y ejecutar evaluaciones personalizadas para medir el rendimiento del modelo en tareas específicas.

OpenAI afirma que ofrecerá dos millones de tokens de formación gratuitos al día en GPT-4o mini y un millón de tokens de formación gratuitos al día en GPT-4o hasta el 31 de octubre para ayudar a los desarrolladores a iniciarse en la destilación. (Los tokens son trozos de datos que los modelos de IA procesan para comprender las solicitudes). El costo de entrenar y ejecutar un modelo destilado es el mismo que los precios estándar de ajuste fino de OpenAI.

Almacenamiento en caché
OpenAI se ha centrado en reducir el precio de sus servicios de API y ha dado un paso más en esa dirección con Prompt Caching, una nueva función que permite a los desarrolladores reutilizar las peticiones más frecuentes sin tener que pagar el precio completo cada vez.

Muchas aplicaciones que utilizan los modelos de OpenAI incluyen largos prefijos delante de las instrucciones que detallan cómo debe actuar el modelo al completar una tarea específica, como indicar al modelo que responda a todas las solicitudes con un tono alegre o que formatee siempre las respuestas en viñetas. Los prefijos más largos suelen mejorar el modelo y ayudan a mantener la coherencia de las respuestas, pero también aumentan el costo por llamada a la API.

Ahora, OpenAI dice que la API guardará o «almacenará en caché» automáticamente los prefijos largos durante un máximo de una hora. Si la API detecta una nueva solicitud con el mismo prefijo, aplicará automáticamente un descuento del 50 por ciento al costo de la entrada. Para los desarrolladores de aplicaciones de IA con casos de uso muy concretos, la nueva función podría suponer un importante ahorro de dinero. En agosto, Anthropic, rival de OpenAI, añadió el almacenamiento en caché a su propia familia de modelos.

Ajuste de la visión
Los desarrolladores podrán ahora ajustar GPT-4o con imágenes además de texto, lo que, según OpenAI, mejorará la capacidad del modelo para comprender y reconocer imágenes, permitiendo «aplicaciones como una funcionalidad de búsqueda visual mejorada, una detección de objetos mejorada para vehículos autónomos o ciudades inteligentes, y un análisis de imágenes médicas más preciso».

Subiendo un conjunto de datos de imágenes etiquetadas a la plataforma de OpenAI, los desarrolladores podrán perfeccionar el rendimiento del modelo a la hora de comprender imágenes. OpenAI afirma que Coframe, una startup que está creando un asistente de ingeniería del crecimiento basado en IA, ha utilizado el ajuste de la visión para mejorar la capacidad del asistente de generar código para sitios web. Al dar a GPT-4 cientos de imágenes de sitios web y el código utilizado para crearlos, «mejoraron la capacidad del modelo para generar sitios web con un estilo visual coherente y un diseño correcto en un 26% en comparación con GPT-4o base».

Para iniciar a los desarrolladores, OpenAI repartirá un millón de tokens de entrenamiento gratuitos cada día durante el mes de octubre. A partir de noviembre, afinar GPT-4o con imágenes costará 25 dólares por cada millón de tokens.

En tiempo real
La semana pasada, OpenAI puso su modo de voz avanzada con sonido humano a disposición de todos los suscriptores de ChatGPT. Ahora, la empresa permite a los desarrolladores crear aplicaciones de voz a voz con su tecnología.

Antes, si un desarrollador quería crear una aplicación basada en IA que pudiera hablar con los usuarios, primero tenía que transcribir el audio, pasar el texto a un modelo de lenguaje como GPT-4 para que lo procesara y, a continuación, enviar el resultado a un modelo de texto a voz. OpenAI afirma que este método «solía provocar pérdidas de emoción, énfasis y acentos, además de una latencia notable».

Con la API en tiempo real, el audio es procesado inmediatamente por la API sin necesidad de enlazar varias aplicaciones, lo que la hace mucho más rápida, barata y ágil. La API también admite llamadas a funciones, lo que significa que las aplicaciones que la utilicen podrán realizar acciones, como pedir una pizza o concertar una cita. Con el tiempo, Realtime se actualizará para gestionar experiencias multimodales de todo tipo, incluido el vídeo.

Para procesar texto, la API costará 5 dólares por millón de tokens de entrada y 20 dólares por millón de tokens de salida. Para procesar audio, la API cobrará 100 dólares por un millón de tokens de entrada y 200 dólares por un millón de tokens de salida. OpenAI dice que esto equivale a «aproximadamente 0,06 dólares por minuto de entrada de audio y 0,24 dólares por minuto de salida de audio».

Fuente WEB | Editado por CambioDigital Online

Custom Text
Artículo anteriorLa identidad digital se masifica: Gartner proyecta 500 millones de usuarios de smartphones con billeteras digitales de identificación en 2026
Artículo siguienteLa quinta edición del Desafío Spinning Movistar amplía su convocatoria a 150 atletas por rodada