Microsoft lanza Phi-2: un modelo de lenguaje de “apenas” 2.700 millones de parámetros, sorprendentemente potente

Phi-2 iguala o supera a modelos mucho mayores como 7B Mistral, 13B Llama-2 e incluso 70B Llama-2 en pruebas de rendimiento seleccionadas.

0
45

Microsoft ha lanzado Phi-2, un modelo de lenguaje de 2.700 millones de parámetros anunciado por primera vez por el CEO Satya Nadella en Ignite el mes pasado. Phi-2 demuestra unas capacidades extraordinarias que normalmente sólo se ven en modelos de entre 5 y 25 veces su tamaño. El modelo presenta un rendimiento puntero entre los modelos lingüísticos básicos con menos de 13.000 millones de parámetros en pruebas complejas que miden el razonamiento, la comprensión del lenguaje, las matemáticas, la codificación y el sentido común.

Rendimiento medio en pruebas agrupadas comparado con los SLM de código abierto más populares.

Phi-2 debe sus sorprendentes capacidades a la atención que Microsoft presta a los datos de entrenamiento de alta calidad y a las innovaciones en el escalado eficiente del conocimiento del modelo. Phi-2 rompe las leyes de escalado convencionales al entrenarse con datos de «calidad de libro de texto» cuidadosamente seleccionados y diseñados para enseñar conocimientos, combinados con técnicas para transferir los conocimientos aprendidos de modelos más pequeños a modelos más grandes.

Tradicionalmente, la potencia de los modelos lingüísticos ha estado estrechamente ligada a su tamaño, ya que los modelos más grandes presumen de capacidades más impresionantes. Sin embargo, Phi-2 da la vuelta a esta idea. No sólo iguala sino que, en algunos casos, supera a modelos de hasta 25 veces su tamaño.

Phi-2 iguala o supera a modelos mucho mayores como el 7B Mistral, el 13B Llama-2 e incluso el 70B Llama-2 en pruebas de rendimiento seleccionadas. También iguala o supera al recientemente anunciado Google Gemini Nano 2, a pesar de su menor tamaño. Las pruebas fueron exhaustivas y abarcaron tareas de razonamiento, comprensión lingüística, matemáticas, retos de codificación y mucho más.

Rendimiento medio en pruebas agrupadas comparado con los SLM de código abierto más populares.

Microsoft atribuye el rendimiento de Phi-2 a pequeña escala a dos factores clave:

– La calidad de los datos de entrenamiento desempeña un papel fundamental en las capacidades del modelo. Al centrarse en datos de «libro de texto» de alta calidad orientados específicamente a la enseñanza del razonamiento, el conocimiento y el sentido común, Phi-2 aprende más con menos.

– Técnicas como la incorporación de conocimientos de modelos más pequeños ayudaron a ampliar eficazmente los conocimientos del modelo. Partiendo del Phi-1.5 de 1.300 millones de dólares, Microsoft utilizó métodos como la transferencia de conocimientos para desbloquear con éxito las sorprendentes capacidades del Phi-2 de 2.700 millones de dólares sin necesitar exponencialmente más datos.

En particular, Phi-2 logra su gran rendimiento sin someterse a técnicas de alineación como el aprendizaje por refuerzo a partir de la retroalimentación humana o el ajuste fino instructivo que se utilizan a menudo para mejorar el comportamiento del modelo. Sin embargo, a pesar de la ausencia de estas estrategias de alineación, Phi-2 demostró una seguridad superior en lo que respecta a la mitigación de la toxicidad y el sesgo en comparación con otros modelos de código abierto disponibles que sí utilizaron la alineación. Microsoft sugiere que esta mejora en el comportamiento se debe a su metodología de tratamiento de datos a medida. La capacidad de desarrollar modelos capaces pero más seguros únicamente mediante la selección de datos tiene implicaciones prometedoras, ya que la industria sigue lidiando con riesgos como los resultados problemáticos de los modelos.

La eficiencia de Phi-2 lo convierte en un terreno de juego ideal para que los investigadores exploren el desarrollo de modelos críticos, como la mejora de la interpretabilidad, la seguridad y el desarrollo ético de modelos lingüísticos. Microsoft ha liberado el acceso a Phi-2 en el catálogo de modelos de Azure para promover la investigación en estas áreas y permitir nuevas aplicaciones del procesamiento del lenguaje natural.

Fuente WEB | Editado por CambioDigital Online

Custom Text
Artículo anteriorGenerar fotos con IA consume tanto como cargar un smartphone
Artículo siguienteMovilnet y Samsung se unen para ofrecer actualización tecnológica a 4GMAX