OpenAI presentó GPT‑5.3‑Codex‑Spark, un modelo diseñado para ofrecer una experiencia de programación en tiempo real con una velocidad de respuesta que busca acercarse a la inmediatez. La compañía lo describe como una versión más pequeña y optimizada de GPT‑5.3‑Codex, pensada para tareas interactivas en las que la latencia influye tanto como la capacidad del modelo. La iniciativa marca el primer hito de la colaboración entre OpenAI y Cerebras, anunciada en enero, cuyo objetivo es explorar nuevas formas de servir modelos de IA en hardware especializado para reducir los tiempos de espera en ciclos de desarrollo.
Codex‑Spark se presenta inicialmente como una vista previa de investigación disponible para usuarios de ChatGPT Pro dentro de la aplicación Codex, la interfaz de línea de comandos y la extensión para Visual Studio Code. El modelo funciona sobre el Wafer Scale Engine 3 de Cerebras, un acelerador diseñado para inferencia de baja latencia que permite superar los 1.000 tokens por segundo en condiciones óptimas. OpenAI sostiene que esta capacidad abre la puerta a patrones de interacción distintos, en los que el desarrollador puede interrumpir, redirigir o ajustar el trabajo del modelo mientras este genera código, sin depender de ciclos de espera prolongados.
La compañía explica que, aunque la velocidad del modelo es un factor clave, la reducción de latencia en todo el recorrido de la solicitud es igual de determinante. Para ello, OpenAI reescribió partes de su infraestructura de inferencia, optimizó el flujo de datos entre cliente y servidor y adoptó conexiones WebSocket persistentes. Según la información publicada, estas mejoras reducen en un 80% la sobrecarga por ida y vuelta entre cliente y servidor, disminuyen en un 30% la latencia por token y acortan a la mitad el tiempo hasta la aparición del primer token visible. Estas optimizaciones beneficiarán a otros modelos de la plataforma a medida que se integren en la infraestructura general.
Codex‑Spark mantiene un estilo de trabajo ligero por defecto: realiza ediciones puntuales, evita ejecutar pruebas automáticamente y prioriza la rapidez en la iteración. Está orientado a tareas como ajustar lógica, modificar interfaces o realizar cambios localizados en proyectos existentes. Con una ventana de contexto de 128.000 tokens y funcionamiento exclusivamente textual, el modelo busca complementar a las versiones más grandes de Codex, que están pensadas para tareas prolongadas que pueden requerir horas o días de ejecución autónoma.
OpenAI señala que el modelo ha sido evaluado en benchmarks como SWE‑Bench Pro y Terminal‑Bench 2.0, centrados en capacidades de ingeniería de software agentica. Aunque Codex‑Spark no alcanza el rendimiento de los modelos más grandes, completa las tareas en una fracción del tiempo gracias a su velocidad de inferencia. La compañía también aclara que el modelo incorpora el mismo entrenamiento de seguridad que la línea principal de GPT‑5.3 y que, según sus evaluaciones internas, no presenta riesgos que superen los umbrales establecidos en su Preparedness Framework para áreas sensibles como ciberseguridad o biología.
Durante la fase de vista previa, Codex‑Spark tendrá límites de uso independientes debido a que opera sobre hardware especializado. OpenAI anticipa que la disponibilidad puede variar en momentos de alta demanda mientras se amplía la capacidad del centro de datos y se ajusta la experiencia de usuario. Además de los usuarios de ChatGPT Pro, un grupo reducido de socios de diseño tendrá acceso al modelo a través de la API para explorar integraciones en productos propios.
La compañía plantea que Codex evolucionará hacia un sistema con dos modos complementarios: uno orientado a razonamiento y ejecución de largo plazo, y otro centrado en colaboración inmediata. Con el tiempo, ambos modos podrían integrarse para permitir que el modelo mantenga un ciclo de interacción estrecho con el usuario mientras delega tareas extensas a subagentes o distribuye trabajo en paralelo. OpenAI sostiene que, a medida que los modelos aumentan su capacidad, la velocidad de interacción se convierte en un factor limitante, y que la inferencia ultrarrápida puede ampliar lo que es posible para quienes transforman ideas en software funcional.
Fuente: nota de prensa OpenAI | Editado por CDOL









































