Los LLM continúan avanzando y Meta anuncia el nuevo modelo de pesos abiertos Llama 3

0
13

El jueves, Meta presentó las primeras versiones de su modelo de IA de ponderación abierta Llama 3, que puede utilizarse para la composición de textos, la generación de código o los chatbots. También anunció que su Meta AI Assistant ya está disponible en un sitio web y que se va a integrar en las principales aplicaciones de redes sociales, intensificando los esfuerzos de la empresa por posicionar sus productos frente a otros asistentes de IA como ChatGPT de OpenAI, Copilot de Microsoft y Gemini de Google.

Al igual que su predecesor, Llama 2, Llama 3 destaca por ser un gran modelo lingüístico (LLM) de libre acceso y de ponderación abierta proporcionado por una importante empresa de IA. Técnicamente, Llama 3 no es de «código abierto» porque este término tiene un significado específico en el ámbito del software (como ya hemos mencionado en otras ocasiones), y el sector aún no ha establecido una terminología para los lanzamientos de modelos de IA que ofrecen código o ponderaciones con restricciones (puede consultar la licencia de Llama 3 aquí) o que se ofrecen sin proporcionar datos de entrenamiento. Nosotros solemos llamar a estas versiones «pesos abiertos».

Por el momento, Llama 3 está disponible en dos tamaños de parámetros: 8.000 millones (8B) y 70.000 millones (70B), ambos disponibles como descargas gratuitas a través del sitio web de Meta previa inscripción. Llama 3 se presenta en dos versiones: preentrenada (básicamente, el modelo de predicción del siguiente token en bruto) y ajustada a las instrucciones (ajustada para seguir las instrucciones del usuario). Cada una tiene un límite de contexto de 8.192 tokens.

Meta entrenó ambos modelos en dos clusters de 24.000 GPU construidos a medida. En una entrevista de podcast con Dwarkesh Patel, Mark Zuckerberg, CEO de Meta, afirmó que la empresa entrenó el modelo 70B con unos 15 billones de tokens de datos. A lo largo del proceso, el modelo nunca alcanzó la «saturación» (es decir, nunca se topó con un muro en términos de aumento de la capacidad). Al final, Meta lo abandonó y pasó a entrenar otros modelos.

«Supongo que nuestra predicción al principio era que se iba a asimilar más, pero incluso al final seguía inclinándose. Probablemente podríamos haberle dado más tokens, y habría mejorado un poco», dijo Zuckerberg en el podcast.

Nuevo asistente: Meta AI, basado en Llama 3 – Foto Meta

Meta también ha anunciado que actualmente está entrenando una versión de Llama 3 con 400B de parámetros, que algunos expertos como Jim Fan, de Nvidia, creen que puede rendir en la misma liga que GPT-4 Turbo, Claude 3 Opus y Gemini Ultra en pruebas como MMLU, GPQA, HumanEval y MATH.

Hablando de puntos de referencia, hemos dedicado muchas palabras en el pasado a explicar lo frustrantemente imprecisos que pueden ser los puntos de referencia cuando se aplican a grandes modelos lingüísticos debido a problemas como la contaminación de la formación (es decir, la inclusión de preguntas de prueba de referencia en el conjunto de datos de formación), la selección por parte de los proveedores y la incapacidad para captar la utilidad general de la IA en una sesión interactiva con modelos ajustados al chat.

Pero, como era de esperar, Meta proporcionó algunos puntos de referencia para Llama 3 que enumeran los resultados de MMLU (conocimientos de nivel universitario), GSM-8K (matemáticas de primaria), HumanEval (codificación), GPQA (preguntas de nivel universitario) y MATH (problemas matemáticos). Estos resultados muestran que el modelo 8B obtiene buenos resultados en comparación con modelos de ponderación abierta como Gemma 7B y Mistral 7B Instruct de Google, y que el modelo 70B también se defiende frente a Gemini Pro 1.5 y Claude 3 Sonnet.

Meta afirma que el modelo Llama 3 se ha mejorado con capacidades para entender la codificación (como Llama 2) y, por primera vez, se ha entrenado tanto con imágenes como con texto, aunque actualmente sólo produce texto. Según Reuters, el Director de Producto de Meta, Chris Cox, señaló en una entrevista que se esperan capacidades de procesamiento más complejas (como la ejecución de planes de varios pasos) en futuras actualizaciones de Llama 3, que también admitirá salidas multimodales, es decir, tanto texto como imágenes.

Meta planea alojar los modelos de Llama 3 en una serie de plataformas en la nube, haciéndolos accesibles a través de AWS, Databricks, Google Cloud y otros proveedores importantes.

También el jueves, Meta anunció que Llama 3 se convertirá en la nueva base del asistente virtual Meta AI, que la empresa anunció por primera vez en septiembre. El asistente aparecerá de forma destacada en las funciones de búsqueda de Facebook, Instagram, WhatsApp, Messenger y el mencionado sitio web dedicado que presenta un diseño similar a ChatGPT, incluida la capacidad de generar imágenes en la misma interfaz. La empresa también ha anunciado una asociación con Google para integrar resultados de búsqueda en tiempo real en el asistente Meta AI, que se suma a una asociación ya existente con Bing de Microsoft.

Fuente WEB | Editado por CambioDigital OnLine

Custom Text
Artículo anteriorChina ordena a Apple que elimine WhatsApp y Threads de la Apple Store
Artículo siguienteNetflix comunica a los accionistas que a partir de 2025 dejará de publicar detalles del numero de abonados