DeepSeek Prepara la Próxima Disrupción en la Inteligencia Artificial con Modelos de Autoaprendizaje

Por

7 abril 2025

Hace apenas unos meses, la gran apuesta de Wall Street por la inteligencia artificial generativa experimentó un momento de reconocimiento con la llegada de DeepSeek. A pesar de su naturaleza fuertemente censurada, el modelo de código abierto DeepSeek demostró que un modelo de IA de razonamiento de primera línea no necesariamente requiere miles de millones de dólares y puede lograrse con recursos más modestos.

Rápidamente encontró adopción comercial por gigantes como Huawei, Oppo y Vivo, mientras que empresas como Microsoft, Alibaba y Tencent no tardaron en integrarlo en sus plataformas. Ahora, el siguiente objetivo de esta prometedora compañía china son los modelos de IA de autoaprendizaje que utilizan un enfoque de bucle de juez-recompensa(*) para mejorar continuamente.

En un artículo preliminar (vía Bloomberg), investigadores de DeepSeek y la Universidad Tsinghua de China describen un nuevo enfoque que podría hacer que los modelos de IA sean más inteligentes y eficientes de forma autónoma. La tecnología subyacente se denomina «ajuste de crítica auto-principista» (SPCT, por sus siglas en inglés), y el enfoque se conoce técnicamente como «modelado de recompensa generativa» (GRM).

En términos sencillos, se asemeja a la creación de un circuito de retroalimentación en tiempo real. Tradicionalmente, un modelo de IA se mejora fundamentalmente aumentando el tamaño del modelo durante el entrenamiento, lo que implica una gran cantidad de trabajo humano y recursos computacionales. DeepSeek propone un sistema donde el «juez» subyacente viene con su propio conjunto de críticas y principios para un modelo de IA mientras este prepara una respuesta a las consultas del usuario.

Este conjunto de críticas y principios se compara luego con las reglas estáticas en el núcleo de un modelo de IA y el resultado deseado. Si existe un alto grado de coincidencia, se genera una señal de recompensa, lo que efectivamente guía a la IA para que funcione aún mejor en el siguiente ciclo.

Los expertos detrás del artículo se refieren a la próxima generación de modelos de IA autoaprendizaje como DeepSeek-GRM. Los puntos de referencia enumerados en el documento sugieren que estos modelos superan a los modelos Gemini de Google, Llama de Meta y GPT-4o de OpenAI. DeepSeek afirma que estos modelos de IA de próxima generación se lanzarán a través del canal de código abierto.

¿IA Autoaprendizaje?
El tema de la IA que puede mejorar por sí misma ha generado comentarios ambiciosos y controvertidos. El ex CEO de Google, Eric Schmidt, argumentó que podríamos necesitar un interruptor de apagado para tales sistemas. «Cuando el sistema puede auto-mejorarse, debemos pensar seriamente en desconectarlo», se citó a Schmidt en Fortune.

El concepto de una IA recursivamente auto-mejorada no es exactamente nuevo. La idea de una máquina ultra-inteligente, capaz de crear máquinas aún mejores, se remonta al matemático I.J. Good en 1965. En 2007, el experto en IA Eliezer Yudkowsky teorizó sobre la IA Semilla, una IA «diseñada para la auto-comprensión, la auto-modificación y la auto-mejora recursiva».

En 2024, la japonesa Sakana AI detalló el concepto de un «Científico de IA», un sistema capaz de completar todo el proceso de un artículo de investigación de principio a fin. En un artículo de investigación publicado en marzo de este año, expertos de Meta revelaron modelos de lenguaje auto-recompensados donde la propia IA actúa como juez para proporcionar recompensas durante el entrenamiento.

El CEO de Microsoft, Satya Nadella, afirma que el desarrollo de la IA está siendo optimizado por el modelo o1 de OpenAI y ha entrado en una fase recursiva: «estamos utilizando IA para construir herramientas de IA para construir una mejor IA».

Las pruebas internas de Meta en su modelo de IA Llama 2 utilizando la novedosa técnica de auto-recompensa mostraron que superaba a rivales como Claude 2 de Anthropic, Gemini Pro de Google y los modelos GPT-4 de OpenAI. Anthropic, respaldada por Amazon, detalló lo que llamaron «manipulación de recompensas», un proceso inesperado «donde un modelo modifica directamente su propio mecanismo de recompensa».

Google no se queda atrás en esta idea. En un estudio publicado en la revista Nature a principios de este mes, expertos de Google DeepMind mostraron un algoritmo de IA llamado Dreamer que puede auto-mejorarse, utilizando el juego Minecraft como ejemplo práctico.

Expertos de IBM están trabajando en su propio enfoque llamado «entrenamiento de cierre deductivo», donde un modelo de IA utiliza sus propias respuestas y las evalúa con los datos de entrenamiento para mejorar. Sin embargo, toda la premisa no es un camino de rosas.

Investigaciones sugieren que cuando los modelos de IA intentan entrenarse con datos sintéticos autogenerados, esto conduce a defectos conocidos coloquialmente como «colapso del modelo». Será interesante observar cómo DeepSeek ejecuta esta idea y si puede hacerlo de una manera más económica que sus rivales occidentales. La promesa de modelos de IA que se perfeccionan continuamente abre un abanico de posibilidades, pero también plantea interrogantes cruciales sobre el control y la seguridad de estas futuras inteligencias artificiales.

(*) El modelo genera una respuesta, un «juez» interno con sus propios principios y críticas evalúa esta respuesta comparándola con reglas estáticas y el resultado deseado. Si hay una alta coincidencia, se genera una señal de recompensa que guía al modelo a mejorar en el siguiente ciclo.

Fuente WEB | Editado por CambioDigital Online

La ciberseguridad como motor financiero: El nuevo lenguaje para los tomadores…

Digitel y Simple sellan una alianza estratégica para transformar el entretenimiento…

Antonio Valente asume como presidente CEO de Telefónica Movistar en Venezuela

La academia lo repite: “Votaciones públicas usando Internet es mala idea”…

Activista estadounidense lanza un mapa colaborativo para vigilar el impacto de…

Broadcom amplía su estrategia para el borde inteligente con su primer…

Samsung y Google presentan nuevas gafas inteligentes en colaboración con marcas…

Las ventas de monitores para computadora crecen impulsadas por el sector…

Meta lanza suscripciones globales y prepara Meta One: la apuesta por…

La Linux Foundation impulsa un estándar para localizar agentes de IA…

YouTube introduce la detección automática de IA para identificar contenidos modificados

Meta lanza Forum, una nueva aplicación dedicada a los grupos de…

Mercado smartphones en América Latina crece 3% y llega a 34.8…

Qualcomm amplía su oferta móvil con Snapdragon 6 Gen 5 y…

OpenAI adelanta el lanzamiento de su primer smartphone para el próximo…

Envíos de smartphones crecen 1% en el 1T26, pero el futuro…

Casi 7 de cada 10 empresas están dispuestas a pagar por…

Falla en el sistema que hace comunicar a los agentes de…

Falsa página de Claude AI distribuye malware mediante anuncios y SEO…

Los peligros detrás del trend de IA que ubica a los…

Red Hat actualiza su plataforma empresarial con capacidades poscuánticas y mejoras…

Apple soluciona el fallo que permitía leer mensajes eliminados en el…

Apple unifica sus servicios empresariales en una nueva plataforma

SUSE incorpora IA y virtualización avanzada para unificar la gestión de…

DeepSeek Prepara la Próxima Disrupción en la Inteligencia Artificial con Modelos de Autoaprendizaje

OTROS ARTÍCULOS RELACIONADOS

La nueva versión de Claude Opus 4.8 profundiza en fiabilidad y...

La guerra de la IA: Anthropic vale US$ 965.000 millones y...

Los agentes conversacionales llegan al comercio minorista con la propuesta de...

El mercado de las fábricas de IA entra en su era...

Google amplía su arquitectura para agentes

Reconocido economista estadounidense asegura que una IA comunitaria y la juventud,...

La Claude Compliance API gana presencia en entornos corporativos diversos

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

La ciberseguridad como motor financiero: El nuevo lenguaje para los tomadores...