La generación de texto cambia de ritmo: llega DiffusionGemma

Google presenta un enfoque basado en difusión que produce 256 tokens en paralelo y reduce la latencia en flujos de trabajo locales.

0
6
Foto Google

Google ha introducido DiffusionGemma, un modelo experimental de código abierto que propone una alternativa al enfoque autorregresivo tradicional en la generación de texto. La compañía describe esta tecnología como un paso hacia métodos más rápidos y adecuados para flujos de trabajo locales e interactivos, especialmente en tareas donde la latencia es un factor determinante. Según la publicación oficial, DiffusionGemma es un modelo Mixture of Experts de 26.000 millones de parámetros que, durante la inferencia, activa solo 3.800 millones, lo que permite ejecutarlo en GPUs de consumo con 18 GB de VRAM cuando se cuantiza .

A diferencia de los modelos que generan texto token a token, DiffusionGemma produce bloques completos de 256 tokens en paralelo. Este enfoque se basa en un mecanismo de difusión que recuerda a los modelos de generación de imágenes: el sistema parte de un bloque de texto aleatorio y lo refina iterativamente hasta obtener un resultado coherente. Google señala que este método desplaza el cuello de botella desde la memoria hacia el cómputo, lo que permite aprovechar mejor el hardware disponible. En pruebas internas, el modelo supera los 1.000 tokens por segundo en una GPU NVIDIA H100 y alcanza más de 700 tokens por segundo en una GeForce RTX 5090, cifras que representan hasta cuatro veces la velocidad de los modelos Gemma autorregresivos equivalentes .

La arquitectura incorpora atención bidireccional, lo que permite que cada token generado en un bloque se relacione con todos los demás. Esta característica abre posibilidades en tareas donde los modelos secuenciales suelen mostrar limitaciones, como la edición en línea, el code infilling o la manipulación de estructuras no lineales. Medios especializados destacan que este tipo de atención puede resultar útil en dominios como secuencias de aminoácidos o grafos matemáticos, donde la relación entre elementos no sigue un orden estrictamente lineal .

Google enmarca DiffusionGemma como un modelo orientado a la experimentación. La compañía reconoce que, aunque ofrece mejoras significativas en velocidad, su calidad de salida es inferior a la de los modelos Gemma 4 autorregresivos en tareas de producción. Para aplicaciones que requieren máxima precisión, recomienda seguir utilizando estos últimos. No obstante, señala que DiffusionGemma puede afinarse para tareas específicas mediante fine-tuning, y que su diseño lo hace especialmente adecuado para prototipado rápido, edición interactiva y flujos de trabajo locales donde la inmediatez es prioritaria .

El lanzamiento se produce en un contexto en el que distintos actores del sector exploran alternativas a la decodificación secuencial. Proyectos académicos y comerciales han experimentado con enfoques parcialmente paralelos o híbridos que buscan reducir la latencia sin sacrificar demasiado la calidad. En este sentido, DiffusionGemma se suma a una tendencia más amplia que intenta adaptar los modelos de lenguaje a escenarios de uso individual, en los que la GPU del usuario no puede amortizar la espera entre tokens como ocurre en la nube. Análisis independientes señalan que este tipo de arquitecturas podría influir en el diseño de asistentes locales, herramientas de edición y aplicaciones científicas que requieren respuestas inmediatas .

Google ha publicado el modelo bajo licencia Apache 2.0 y lo ha integrado desde el inicio con herramientas como Hugging Face Transformers, vLLM y Unsloth. La compañía también ha confirmado que el soporte para llama.cpp llegará próximamente, lo que ampliará su disponibilidad en entornos de ejecución optimizados para hardware de consumo. NVIDIA, por su parte, ha anunciado optimizaciones específicas para sus GPUs, incluyendo Tensor Cores y plataformas como DGX Spark y DGX Station, con mejoras de rendimiento que alcanzan hasta 2.000 tokens por segundo en configuraciones de gama alta .

Con DiffusionGemma, Google no busca reemplazar sus modelos principales, sino explorar un camino alternativo que podría complementar la generación autorregresiva en escenarios donde la velocidad y la interacción directa son más importantes que la calidad final del texto. El experimento abre la puerta a nuevas formas de trabajar con lenguaje natural, más cercanas a la edición en bloque que a la escritura secuencial, y plantea preguntas sobre cómo evolucionarán los modelos de texto en un futuro donde la inmediatez será un requisito cada vez más habitual.

Fuente: Blog de Google | Editado por CDOL

Custom Text
Artículo anteriorNetflix alcanzará los 400 millones de suscriptores para 2031 y mantendrá el liderazgo en el sector del streaming
Artículo siguienteRidery lanza el Mundial de Conductores: la primera competencia nacional por ciudades para conductores registrados