En el mundo de los grandes modelos de lenguaje (LLM) como GPT-4 y Bard, Microsoft acaba de lanzar un nuevo modelo de lenguaje pequeño: Phi-2, que tiene 2.700 millones de parámetros y es una versión mejorada de Phi-1.5. Disponible actualmente a través del catálogo de modelos de Azure AI Studio, Microsoft afirma que Phi-2 puede superar a modelos más grandes como Llama-2, Mistral y Gemini-2 en varias pruebas comparativas de IA generativa.
Anunciado originalmente por Satya Nadella en Ignite 2023 el Phi-2 fue construido por el equipo de investigación de Microsoft, y se dice que el modelo de IA generativa tiene «sentido común», «comprensión del lenguaje» y «razonamiento lógico». Según la empresa, Phi-2 puede incluso superar a modelos 25 veces mayores en tareas específicas.
Microsoft Phi-2 SLM se entrena con datos de «calidad de libro de texto», que incluyen conjuntos de datos sintéticos, conocimientos generales, teoría de la mente, actividades cotidianas, etc. Es un modelo basado en transformadores con capacidades como un objetivo de predicción de la palabra siguiente. Microsoft ha entrenado Phi-2 en 96 GPU A100 durante 14 días, lo que indica que es más fácil y rentable entrenar este modelo con datos específicos en comparación con GPT-4. Según los informes, GPT-4 tarda entre 90 y 100 días en entrenarse utilizando decenas de miles de GPU Tensor Core A100.

El Phi-2 de Microsoft también puede resolver complejas ecuaciones matemáticas y problemas de física. Además, puede identificar un error cometido por un estudiante en un cálculo.
En pruebas como el razonamiento lógico, la comprensión del lenguaje, las matemáticas y la codificación, Phi-2 supera al 13B Llama-2 y al 7B Mistral. Del mismo modo, el modelo también supera al LLM 70B Llama-2 por un margen significativo. No solo eso, incluso supera al Google Gemini Nano 2, un modelo de 3,25B, que puede ejecutarse de forma nativa en Google Pixel 8 Pro.
Oferta festiva
Un modelo más pequeño que supera a un modelo de lenguaje grande como Llama-2 tiene una gran ventaja, ya que cuestan mucho menos de ejecutar con menores requisitos de potencia y computación. También son modelos que pueden entrenarse para tareas específicas y pueden ejecutarse fácilmente de forma nativa en el dispositivo, lo que reduce la latencia de salida. Los desarrolladores pueden acceder al modelo Phi-2 en Azure AI Studio.
Fuente WEB | Editado por CambioDigital OnLine