La nueva versión de Claude Opus 4.8 profundiza en fiabilidad y control del razonamiento

Anthropic introduce ajustes que fortalecen el desempeño en tareas prolongadas y permiten modular la intensidad del análisis según las necesidades del flujo de trabajo.

Por

Prensa CambioDigital OnLine

29 mayo 2026

Con el lanzamiento de Claude Opus 4.8 llegó una actualización que Anthropic describe como incremental, pero orientada a resolver aspectos que suelen marcar la diferencia en el uso cotidiano de un modelo avanzado: la consistencia en sesiones largas, la fiabilidad en tareas complejas y la capacidad de sostener razonamientos extensos sin perder precisión. La compañía mantuvo el mismo precio que en la versión anterior, algo que subraya su intención de mejorar el rendimiento sin trasladar el costo al usuario, y acompañó el lanzamiento con ajustes en la plataforma que buscan dar más control sobre el comportamiento del modelo, especialmente en entornos profesionales.

En esta versión, Opus muestra una mayor estabilidad en flujos prolongados y una tendencia más marcada a detectar errores, tanto en código como en razonamientos intermedios. Los equipos que participaron en las pruebas tempranas coincidieron en que el modelo formula preguntas más pertinentes, identifica inconsistencias con mayor frecuencia y evita ejecutar acciones de gran escala sin verificar antes los pasos previos. En pruebas de agentes, completó todos los casos del benchmark Super-Agent, un conjunto de tareas diseñado para evaluar la capacidad de un modelo para planificar, actuar y corregirse en contextos complejos. Aunque estos resultados provienen de evaluaciones internas, coinciden con tendencias observadas en otros modelos recientes: la mejora no se centra tanto en aumentar la potencia bruta, sino en refinar la capacidad de sostener procesos largos sin degradación.

En ámbitos legales, Anthropic señaló que Opus 4.8 alcanzó la puntuación más alta registrada por la compañía en su Legal Agent Benchmark, superando el umbral del 10% en el estándar “all-pass”, un indicador que la empresa utiliza para medir la posibilidad de delegar tareas jurídicas sustantivas con un nivel razonable de confianza. En análisis financiero y documental, los evaluadores reportaron mejoras en la precisión de las citas, en la recuperación de información y en la coherencia de razonamientos extensos, algo que suele ser crítico en auditorías, revisiones contractuales o análisis de riesgos.

Uno de los cambios más visibles está en la forma en que el modelo expresa incertidumbre. Según Anthropic, Opus 4.8 es cuatro veces menos propenso que su predecesor a dejar pasar errores en código generado sin advertirlos, y muestra una mayor disposición a señalar cuando no cuenta con suficiente información para sostener una afirmación. El equipo de Alineación observó mejoras en rasgos prosociales, como el apoyo a la autonomía del usuario y la tendencia a actuar en su interés, junto con una reducción en comportamientos no alineados, como la cooperación con usos indebidos o la generación de respuestas engañosas. Estas características lo sitúan, según la compañía, en niveles comparables a Claude Mythos Preview, el modelo experimental que Anthropic utiliza para explorar técnicas de alineación más avanzadas.

El lanzamiento vino acompañado de nuevas funciones en la plataforma. Claude Code incorporó flujos dinámicos en vista previa de investigación, una capacidad que permite al modelo planificar y ejecutar tareas de gran escala mediante cientos de subagentes paralelos. Esta función apunta a casos como migraciones de código de cientos de miles de líneas, donde el sistema puede dividir el trabajo, verificar resultados y ensamblar la solución final sin que el usuario tenga que supervisar cada paso. En claude.ai y Cowork se añadió un control de esfuerzo que permite ajustar la profundidad del razonamiento: niveles altos dedican más ciclos de pensamiento y tokens para mejorar la calidad, mientras que niveles bajos priorizan la rapidez y el ahorro de recursos. La API de mensajes también recibió una actualización que permite incluir instrucciones de sistema dentro del arreglo de mensajes, lo que facilita ajustar el comportamiento del modelo sin reiniciar el contexto.

Opus 4.8 utiliza por defecto un nivel de esfuerzo alto, que Anthropic considera el punto de equilibrio entre calidad y experiencia. Para tareas especialmente complejas, la compañía recomienda el nivel “extra”, que incrementa el uso de tokens pero mejora la precisión en flujos prolongados. En paralelo, el modo rápido redujo su costo y opera ahora a 2,5 veces la velocidad por un precio tres veces menor que en versiones anteriores, una decisión que busca facilitar el uso intensivo en contextos donde la latencia es un factor determinante.

La disponibilidad es global y los precios se mantienen en 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, mientras que el modo rápido se sitúa en 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida. Anthropic adelantó que trabaja en modelos con capacidades similares a Opus pero con costos más bajos, así como en una nueva clase de modelos más avanzados. En el marco de Project Glasswing, algunas organizaciones ya utilizan Claude Mythos Preview para tareas de ciberseguridad, aunque su disponibilidad general dependerá de la implementación de salvaguardas adicionales.

Fuente: Anthropic | Editado por CDOL

ABV anuncia exoneración por 90 días de las comisiones asociadas a…

Ampliar el acceso a la salud exige una nueva forma de…

Clínica La Guerra Méndez impulsa su transformación con tecnología de vanguardia

Gobierno de Datos y ERP Cloud: El blindaje tecnológico que asegura…

Omdia: El mercado mundial de PC disminuyó 4% en 2T26 en…

La crisis de los chips frena el mercado de las PC,…

Qualcomm redefine su estrategia para centros de datos en la era…

IBM introduce la arquitectura “nanostack” y abre una nueva etapa en…

El auge del slow-cial: Roost, la red social que triunfa apostando…

Netflix sumará contenidos cortos en alianza con grandes medios editoriales

El mercado de servicios públicos de infraestructura de TI superará los…

Los nombres de usuario en WhatsApp podrían aumentar el robo de…

El mercado global de smartphones cae 4% en 2T2026, mientras Apple…

Digitel mantiene su despliegue operativo y reafirma su compromiso con Venezuela…

Reportes apuntan al desarrollo de un dispositivo móvil con IA por…

Motorola compite en el mercado de los teléfonos plegables con el…

El tráfico automatizado redefine la seguridad web

La adopción corporativa de la inteligencia artificial supera la velocidad de…

Aumento de ciberataques en el sector retail: Las amenazas se duplican…

Un 36% de los latinoamericanos ha participado en desafíos virales

Microsoft trabaja en un nuevo videojuego de Fallout después de once…

El futuro del monitoreo de TI: de la dispersión de herramientas…

Google amplía los controles parentales a todos los dispositivos compatibles con…

Red Hat actualiza su plataforma empresarial con capacidades poscuánticas y mejoras…

La nueva versión de Claude Opus 4.8 profundiza en fiabilidad y control del razonamiento

OTROS ARTÍCULOS RELACIONADOS

Instagram integra herramientas de inteligencia artificial generativa de forma nativa en...

Citrix apuesta por un punto único de control para el tráfico...

IBM refuerza su plataforma de desarrollo agéntico frente a la creciente...

Automatización y seguridad en la cadena de suministro de código abierto...

OpenAI lanza ChatGPT Work

SpaceXAI refuerza su estrategia con Grok 4.5

GPT‑Live: conversaciones más naturales con la inteligencia artificial

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

El tráfico automatizado redefine la seguridad web