Meta presenta Code Llama un nuevo modelo de lenguaje de gran tamaño optimizado para tareas de programación

0
32

Meta Platforms Inc. presentó Code Llama, un gran modelo de lenguaje de código abierto capaz de generar automáticamente fragmentos de código y explicar su funcionamiento.

El modelo es gratuito para uso comercial.

Code Llama se basa en otro modelo de lenguaje de código abierto, Llama 2, que Meta lanzó el mes pasado. Este último modelo es de naturaleza más general. No sólo puede realizar tareas de codificación, sino también resumir documentos, traducir textos y responder a preguntas de trivialidades.

Llama 2 es uno de los modelos lingüísticos más avanzados del ecosistema de código abierto. En una serie de pruebas comparativas llevadas a cabo por investigadores de Meta, superó a varias otras redes neuronales de libre acceso. Code Llama, el modelo lingüístico que Meta ha presentado hoy, es una versión especializada de Llama 2 con capacidades de programación significativamente mejoradas.

Meta desarrolló Code Llama entrenando la red neuronal Llama 2 original con un gran conjunto de datos de muestras de código y archivos «relacionados con el código». Según la empresa, ese conjunto de datos de entrenamiento comprendía 500.000 millones de tokens. Un token es una unidad básica de información en proyectos de inteligencia artificial que suele constar de unas pocas letras o números.

Code Llama está disponible en tres versiones: una estándar y dos especializadas.

La primera versión especializada está diseñada para generar software en el lenguaje de programación Python. Se entrenó con un conjunto de datos que incluía 100.000 millones de tokens de código Python.

La otra versión especializada de Code Llama se llama Code Llama – Instruct. Está optimizada para generar código basado en instrucciones en lenguaje natural del usuario. Además, el modelo puede explicar cómo funciona el código que genera.

Cada una de las tres ediciones de Code Llama está disponible en tres versiones. Estas versiones incluyen 7.000, 13.000 y 34.000 millones de parámetros, respectivamente. Los parámetros son los ajustes de configuración que influyen en cómo una IA convierte los datos en decisiones.

Según Meta, las versiones de Code Llama que tienen 7.000 y 13.000 millones de parámetros son más rápidas que la edición de 34.000 millones. Esta ventaja de velocidad las hace más adecuadas para tareas sensibles a la latencia. Una empresa podría, por ejemplo, utilizarlas para crear una herramienta de desarrollo que genere sugerencias de autocompletado de código en tiempo real para los programadores.

La edición de 34 mil millones de Code Llama compensa la velocidad con una mayor precisión. Como resultado, debería resultar más útil en casos en los que la prioridad sea maximizar la calidad de las respuestas.

Una característica clave que diferencia a Code Llama de Llama 2, el modelo de lenguaje de propósito general en el que se basa, es su ventana de contexto.

La ventana contextual de una IA determina la cantidad de datos que los usuarios pueden incluir en una sola pregunta. En el caso de Llama 2, esa cantidad de datos es de 4.096 tokens. En cambio, Code Llama tiene una ventana de contexto máxima de 100.000 tokens.

La mayor ventana de contexto permitirá al modelo realizar algunas tareas de programación con mayor eficacia que su homónimo. Según Meta, Code Llama será mejor a la hora de depurar errores de software. La empresa también cree que la función puede ayudar a los desarrolladores a aumentar la calidad del código generado por la IA.

«Por ejemplo, los usuarios pueden proporcionar al modelo más contexto de su código base para que las generaciones sean más relevantes», escriben los investigadores de Meta en un blog.

Meta evaluó las capacidades de Code Llama utilizando dos populares pruebas de codificación conocidas como HumanEval y Mostly Basic Python Programming. Según la empresa, el modelo superó a varias alternativas punteras del ecosistema de código abierto. Además, realizó algunas tareas mejor que GPT-3.5, un predecesor reciente del modelo de lenguaje GPT-4 de OpenAI LP.

«Nuestras pruebas comparativas demostraron que Code Llama funcionaba mejor que los LLM de código abierto específicos para códigos y superaba a Llama 2», detallan los investigadores de Meta. «Code Llama 34B, por ejemplo, obtuvo una puntuación del 53,7% en HumanEval y del 56,2% en MBPP, la más alta en comparación con otras soluciones abiertas de última generación».

Fuente WEB | Editado por CambioDigital OnLine

Custom Text
Artículo anteriorSAP Signavio: La clave para tomar decisiones inteligentes y potenciar el negocio
Artículo siguienteLa importancia de los Data Centers en la era digital