DeepSeek Prepara la Próxima Disrupción en la Inteligencia Artificial con Modelos de Autoaprendizaje

0
38

Hace apenas unos meses, la gran apuesta de Wall Street por la inteligencia artificial generativa experimentó un momento de reconocimiento con la llegada de DeepSeek. A pesar de su naturaleza fuertemente censurada, el modelo de código abierto DeepSeek demostró que un modelo de IA de razonamiento de primera línea no necesariamente requiere miles de millones de dólares y puede lograrse con recursos más modestos.

Rápidamente encontró adopción comercial por gigantes como Huawei, Oppo y Vivo, mientras que empresas como Microsoft, Alibaba y Tencent no tardaron en integrarlo en sus plataformas. Ahora, el siguiente objetivo de esta prometedora compañía china son los modelos de IA de autoaprendizaje que utilizan un enfoque de bucle de juez-recompensa(*) para mejorar continuamente.

En un artículo preliminar (vía Bloomberg), investigadores de DeepSeek y la Universidad Tsinghua de China describen un nuevo enfoque que podría hacer que los modelos de IA sean más inteligentes y eficientes de forma autónoma. La tecnología subyacente se denomina «ajuste de crítica auto-principista» (SPCT, por sus siglas en inglés), y el enfoque se conoce técnicamente como «modelado de recompensa generativa» (GRM).

En términos sencillos, se asemeja a la creación de un circuito de retroalimentación en tiempo real. Tradicionalmente, un modelo de IA se mejora fundamentalmente aumentando el tamaño del modelo durante el entrenamiento, lo que implica una gran cantidad de trabajo humano y recursos computacionales. DeepSeek propone un sistema donde el «juez» subyacente viene con su propio conjunto de críticas y principios para un modelo de IA mientras este prepara una respuesta a las consultas del usuario.

Este conjunto de críticas y principios se compara luego con las reglas estáticas en el núcleo de un modelo de IA y el resultado deseado. Si existe un alto grado de coincidencia, se genera una señal de recompensa, lo que efectivamente guía a la IA para que funcione aún mejor en el siguiente ciclo.

Los expertos detrás del artículo se refieren a la próxima generación de modelos de IA autoaprendizaje como DeepSeek-GRM. Los puntos de referencia enumerados en el documento sugieren que estos modelos superan a los modelos Gemini de Google, Llama de Meta y GPT-4o de OpenAI. DeepSeek afirma que estos modelos de IA de próxima generación se lanzarán a través del canal de código abierto.

¿IA Autoaprendizaje?
El tema de la IA que puede mejorar por sí misma ha generado comentarios ambiciosos y controvertidos. El ex CEO de Google, Eric Schmidt, argumentó que podríamos necesitar un interruptor de apagado para tales sistemas. «Cuando el sistema puede auto-mejorarse, debemos pensar seriamente en desconectarlo», se citó a Schmidt en Fortune.

El concepto de una IA recursivamente auto-mejorada no es exactamente nuevo. La idea de una máquina ultra-inteligente, capaz de crear máquinas aún mejores, se remonta al matemático I.J. Good en 1965. En 2007, el experto en IA Eliezer Yudkowsky teorizó sobre la IA Semilla, una IA «diseñada para la auto-comprensión, la auto-modificación y la auto-mejora recursiva».

En 2024, la japonesa Sakana AI detalló el concepto de un «Científico de IA», un sistema capaz de completar todo el proceso de un artículo de investigación de principio a fin. En un artículo de investigación publicado en marzo de este año, expertos de Meta revelaron modelos de lenguaje auto-recompensados donde la propia IA actúa como juez para proporcionar recompensas durante el entrenamiento.

El CEO de Microsoft, Satya Nadella, afirma que el desarrollo de la IA está siendo optimizado por el modelo o1 de OpenAI y ha entrado en una fase recursiva: «estamos utilizando IA para construir herramientas de IA para construir una mejor IA».

Las pruebas internas de Meta en su modelo de IA Llama 2 utilizando la novedosa técnica de auto-recompensa mostraron que superaba a rivales como Claude 2 de Anthropic, Gemini Pro de Google y los modelos GPT-4 de OpenAI. Anthropic, respaldada por Amazon, detalló lo que llamaron «manipulación de recompensas», un proceso inesperado «donde un modelo modifica directamente su propio mecanismo de recompensa».

Google no se queda atrás en esta idea. En un estudio publicado en la revista Nature a principios de este mes, expertos de Google DeepMind mostraron un algoritmo de IA llamado Dreamer que puede auto-mejorarse, utilizando el juego Minecraft como ejemplo práctico.

Expertos de IBM están trabajando en su propio enfoque llamado «entrenamiento de cierre deductivo», donde un modelo de IA utiliza sus propias respuestas y las evalúa con los datos de entrenamiento para mejorar. Sin embargo, toda la premisa no es un camino de rosas.

Investigaciones sugieren que cuando los modelos de IA intentan entrenarse con datos sintéticos autogenerados, esto conduce a defectos conocidos coloquialmente como «colapso del modelo». Será interesante observar cómo DeepSeek ejecuta esta idea y si puede hacerlo de una manera más económica que sus rivales occidentales. La promesa de modelos de IA que se perfeccionan continuamente abre un abanico de posibilidades, pero también plantea interrogantes cruciales sobre el control y la seguridad de estas futuras inteligencias artificiales.

(*) El modelo genera una respuesta, un «juez» interno con sus propios principios y críticas evalúa esta respuesta comparándola con reglas estáticas y el resultado deseado. Si hay una alta coincidencia, se genera una señal de recompensa que guía al modelo a mejorar en el siguiente ciclo.

Fuente WEB | Editado por CambioDigital Online

Custom Text
Artículo anteriorIA al rescate: Un nuevo método para predecir incendios como los de Los Ángeles
Artículo siguienteSplunk Ofrece Flexibilidad Total con sus Innovaciones para OpenTelemetry