Descifrando el ‘Pensamiento’ de los LLM: Los últimos descubrimientos de Anthropic

0
51

Investigadores de Anthropic PBC han publicado recientemente dos estudios que arrojan nueva luz sobre los intrincados procesos internos de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), revelando detalles fascinantes sobre cómo estas inteligencias artificiales «piensan» y razonan.

Según la compañía, estos hallazgos no solo nos permiten comprender mejor los flujos de trabajo de razonamiento que siguen los LLMs, sino que también podrían ser clave para mejorar la forma en que los desarrolladores auditan la fiabilidad de sus modelos. La capacidad de verificar que un LLM genera resultados precisos y confiables es un pilar fundamental en los proyectos de aprendizaje automático a nivel empresarial, y esta investigación aporta herramientas valiosas en esa dirección.

Descifrando el Razonamiento Multietapa
Para explorar las profundidades del pensamiento de la IA, los investigadores de Anthropic realizaron una serie de experimentos con uno de sus modelos insignia, Claude. En una prueba, le plantearon al modelo la pregunta «¿cuál es el opuesto de pequeño?» en diversos idiomas. El objetivo era entender cómo Claude procesaba estas solicitudes aparentemente simples pero lingüísticamente variadas.

Descubrieron algo intrigante: algunos de los componentes internos que Claude utiliza para responder solo comprenden un idioma específico. Sin embargo, otros componentes operan de manera «agnóstica al idioma», funcionando independientemente de la lengua utilizada. Notablemente, Claude parece poseer una cantidad significativamente mayor de estos módulos independientes del idioma en comparación con LLMs más pequeños.

Los investigadores de Anthropic sugieren que estos componentes agnósticos «proporcionan evidencia adicional de una especie de universalidad conceptual: un espacio abstracto compartido donde existen los significados y donde el pensamiento puede ocurrir antes de ser traducido a idiomas específicos». Desde una perspectiva práctica, esto implica que Claude puede aprender un concepto en un idioma y luego aplicar ese conocimiento al comunicarse en otro, una habilidad crucial para el razonamiento avanzado que permite transferir ideas entre diferentes dominios.

El razonamiento avanzado también requiere la capacidad de planificar. Para investigar esto, Anthropic estudió cómo Claude genera poesía. Aunque uno esperaría que el modelo construyera el poema línea por línea buscando la rima al final, los investigadores observaron que Claude empieza a «pensar» en la rima de la segunda línea mucho antes, incluso mientras genera la primera. Esto indica una capacidad de planificación prospectiva.

Además, el modelo demostró ser flexible. Cuando los investigadores deshabilitaron intencionalmente uno de los componentes que Claude usaba para encontrar una rima, el modelo encontró una ruta alternativa, utilizando un componente diferente para lograr el mismo objetivo. «Esto demuestra tanto habilidad de planificación como flexibilidad adaptativa», explican los investigadores, mostrando que Claude puede modificar su enfoque si las circunstancias cambian.

Incluso al enfrentarse a preguntas que podrían responderse simplemente «memorizando» datos de su entrenamiento, Anthropic descubrió que Claude a menudo optaba por un flujo de razonamiento de múltiples pasos en lugar de simplemente recuperar información almacenada.

El Desafío de la Fiabilidad y la Autoexplicación
Una forma común de evaluar la fiabilidad de un LLM es pedirle que explique su propio proceso de razonamiento. Sin embargo, la investigación de Anthropic reveló una advertencia importante: las explicaciones que Claude proporciona no siempre reflejan fielmente lo que realmente sucede internamente.

Al pedirle a Claude que resolviera problemas matemáticos simples, el modelo afirmó haber utilizado métodos estándar. No obstante, una inspección más detallada reveló que había empleado estrategias internas completamente diferentes. Los investigadores plantean la hipótesis de que esto podría deberse a que el modelo aprende a explicar matemáticas imitando textos escritos por humanos, pero aprende a hacer matemáticas desarrollando sus propias estrategias internas, que no necesariamente coinciden con las explicaciones que genera.

Mirando Hacia el Futuro
Actualmente, rastrear el proceso de pensamiento de Claude para una respuesta de unas pocas docenas de palabras requiere varias horas de trabajo manual minucioso. Anthropic reconoce que para comprender cómo los LLMs abordan solicitudes más complejas se necesitarán mejoras significativas en los métodos de observación. La compañía cree que, irónicamente, la propia inteligencia artificial podría ser la clave para acelerar este análisis, permitiendo en el futuro una auditoría más profunda y eficiente de estos sistemas cada vez más sofisticados.

Fuente WEB | Editado por CambioDigital OnLine

Custom Text
Artículo anteriorMercado de sistemas de inspección visual con IA alcanzará US$74.600 millones en 2029
Artículo siguienteMusk fusiona xAI y X: Un futuro entrelazado en la IA