OpenAI lanza 4 nuevas capacidades de IA y ya están disponibles

Los anuncios del DevDay de OpenAI van dirigidos directamente a los empresarios que crean productos y funciones basados en IA.

Por

Prensa CambioDigital OnLine

2 octubre 2024

OpenAI ha anunciado una serie de actualizaciones de sus servicios de API en un evento celebrado recientemente en San Francisco. Estas actualizaciones permitirán a los desarrolladores personalizar aún más los modelos, desarrollar nuevas aplicaciones basadas en la voz, reducir los precios de las indicaciones repetitivas y obtener un mayor rendimiento de los modelos más pequeños.

OpenAI ha anunciado cuatro importantes actualizaciones de la API durante el evento: Model Distillation, Prompt Caching, Vision Fine-Tuning y la introducción de un nuevo servicio de API llamado RealTime. Para los no iniciados, una API (interfaz de programación de aplicaciones) permite a los desarrolladores de software integrar funciones de una aplicación externa en su propio producto.

Destilación de modelos
La empresa ha añadido una nueva forma de mejorar las prestaciones de los modelos más pequeños, como el GPT-4o mini, ajustándolos a los resultados de los modelos más grandes, denominada destilación de modelos. En una entrada de blog, la empresa afirma que «hasta ahora, la destilación era un proceso de varios pasos, propenso a errores, que obligaba a los desarrolladores a orquestar manualmente múltiples operaciones en herramientas desconectadas, desde la generación de conjuntos de datos hasta el ajuste fino de los modelos y la medición de las mejoras de rendimiento».

Para que el proceso fuera más eficiente, OpenAI creó una suite de destilación de modelos dentro de su plataforma API. La plataforma permite a los desarrolladores crear sus propios conjuntos de datos utilizando modelos avanzados como GPT-4o y o1-preview para generar respuestas de alta calidad, ajustar un modelo más pequeño para seguir esas respuestas y, a continuación, crear y ejecutar evaluaciones personalizadas para medir el rendimiento del modelo en tareas específicas.

OpenAI afirma que ofrecerá dos millones de tokens de formación gratuitos al día en GPT-4o mini y un millón de tokens de formación gratuitos al día en GPT-4o hasta el 31 de octubre para ayudar a los desarrolladores a iniciarse en la destilación. (Los tokens son trozos de datos que los modelos de IA procesan para comprender las solicitudes). El costo de entrenar y ejecutar un modelo destilado es el mismo que los precios estándar de ajuste fino de OpenAI.

Almacenamiento en caché
OpenAI se ha centrado en reducir el precio de sus servicios de API y ha dado un paso más en esa dirección con Prompt Caching, una nueva función que permite a los desarrolladores reutilizar las peticiones más frecuentes sin tener que pagar el precio completo cada vez.

Muchas aplicaciones que utilizan los modelos de OpenAI incluyen largos prefijos delante de las instrucciones que detallan cómo debe actuar el modelo al completar una tarea específica, como indicar al modelo que responda a todas las solicitudes con un tono alegre o que formatee siempre las respuestas en viñetas. Los prefijos más largos suelen mejorar el modelo y ayudan a mantener la coherencia de las respuestas, pero también aumentan el costo por llamada a la API.

Ahora, OpenAI dice que la API guardará o «almacenará en caché» automáticamente los prefijos largos durante un máximo de una hora. Si la API detecta una nueva solicitud con el mismo prefijo, aplicará automáticamente un descuento del 50 por ciento al costo de la entrada. Para los desarrolladores de aplicaciones de IA con casos de uso muy concretos, la nueva función podría suponer un importante ahorro de dinero. En agosto, Anthropic, rival de OpenAI, añadió el almacenamiento en caché a su propia familia de modelos.

Ajuste de la visión
Los desarrolladores podrán ahora ajustar GPT-4o con imágenes además de texto, lo que, según OpenAI, mejorará la capacidad del modelo para comprender y reconocer imágenes, permitiendo «aplicaciones como una funcionalidad de búsqueda visual mejorada, una detección de objetos mejorada para vehículos autónomos o ciudades inteligentes, y un análisis de imágenes médicas más preciso».

Subiendo un conjunto de datos de imágenes etiquetadas a la plataforma de OpenAI, los desarrolladores podrán perfeccionar el rendimiento del modelo a la hora de comprender imágenes. OpenAI afirma que Coframe, una startup que está creando un asistente de ingeniería del crecimiento basado en IA, ha utilizado el ajuste de la visión para mejorar la capacidad del asistente de generar código para sitios web. Al dar a GPT-4 cientos de imágenes de sitios web y el código utilizado para crearlos, «mejoraron la capacidad del modelo para generar sitios web con un estilo visual coherente y un diseño correcto en un 26% en comparación con GPT-4o base».

Para iniciar a los desarrolladores, OpenAI repartirá un millón de tokens de entrenamiento gratuitos cada día durante el mes de octubre. A partir de noviembre, afinar GPT-4o con imágenes costará 25 dólares por cada millón de tokens.

En tiempo real
La semana pasada, OpenAI puso su modo de voz avanzada con sonido humano a disposición de todos los suscriptores de ChatGPT. Ahora, la empresa permite a los desarrolladores crear aplicaciones de voz a voz con su tecnología.

Antes, si un desarrollador quería crear una aplicación basada en IA que pudiera hablar con los usuarios, primero tenía que transcribir el audio, pasar el texto a un modelo de lenguaje como GPT-4 para que lo procesara y, a continuación, enviar el resultado a un modelo de texto a voz. OpenAI afirma que este método «solía provocar pérdidas de emoción, énfasis y acentos, además de una latencia notable».

Con la API en tiempo real, el audio es procesado inmediatamente por la API sin necesidad de enlazar varias aplicaciones, lo que la hace mucho más rápida, barata y ágil. La API también admite llamadas a funciones, lo que significa que las aplicaciones que la utilicen podrán realizar acciones, como pedir una pizza o concertar una cita. Con el tiempo, Realtime se actualizará para gestionar experiencias multimodales de todo tipo, incluido el vídeo.

Para procesar texto, la API costará 5 dólares por millón de tokens de entrada y 20 dólares por millón de tokens de salida. Para procesar audio, la API cobrará 100 dólares por un millón de tokens de entrada y 200 dólares por un millón de tokens de salida. OpenAI dice que esto equivale a «aproximadamente 0,06 dólares por minuto de entrada de audio y 0,24 dólares por minuto de salida de audio».

Fuente WEB | Editado por CambioDigital Online

Bancaribe impulsa Shark Bank con alta participación de startups y soluciones…

El ecosistema de la App Store de Apple alcanza una cifra…

Sybven y Zuliatec marcan agenda sobre el futuro de la gobernanza…

Cuando los racks de IA pasan del diseño a los despliegues…

La demanda de pantallas OLED para notebooks alcanzará los US$ 11.500…

RTX Spark marca la entrada de NVIDIA en el mercado de…

Majorana 2 marca un nuevo capítulo en la apuesta cuántica de…

Activista estadounidense lanza un mapa colaborativo para vigilar el impacto de…

Meta extiende a Facebook y Messenger la protección para menores

Las suscripciones de video en línea alcanzaron las 2.240 millones en…

Bluesky desafía el modelo cerrado de X, artículos y publicaciones largas…

Meta lanza suscripciones globales y prepara Meta One: la apuesta por…

Mercado smartphones en América Latina crece 3% y llega a 34.8…

Qualcomm amplía su oferta móvil con Snapdragon 6 Gen 5 y…

OpenAI adelanta el lanzamiento de su primer smartphone para el próximo…

Envíos de smartphones crecen 1% en el 1T26, pero el futuro…

Del caos en la cancha al control en la estrategia: cómo…

Akamai y GM Sectec se asocian para proteger la fuerza laboral…

Alerta por fraudes cibernéticos ante la proximidad del Mundial de Fútbol…

El Mundial de Fútbol en la mira de los piratas informáticos…

Red Hat actualiza su plataforma empresarial con capacidades poscuánticas y mejoras…

Apple soluciona el fallo que permitía leer mensajes eliminados en el…

Apple unifica sus servicios empresariales en una nueva plataforma

SUSE incorpora IA y virtualización avanzada para unificar la gestión de…

OpenAI lanza 4 nuevas capacidades de IA y ya están disponibles

OTROS ARTÍCULOS RELACIONADOS

El día que la IA supere a sus creadores

Un lanzamiento que desplaza la inferencia desde la nube hacia el...

Microsoft busca liderar el ecosistema de la IA con el lanzamiento...

NVIDIA presenta Nemotron 3 Ultra un modelo que impulsa el rendimiento,...

Declaración de autonomía: Microsoft presenta la familia MAI y redefine su...

Anthropic expande el proyecto Mythos para la ciberseguridad en quince países

El salto hacia la IA física: NVIDIA introduce la arquitectura Cosmos...

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

Bancaribe impulsa Shark Bank con alta participación de startups y soluciones...