Con el lanzamiento de Claude Opus 4.8 llegó una actualización que Anthropic describe como incremental, pero orientada a resolver aspectos que suelen marcar la diferencia en el uso cotidiano de un modelo avanzado: la consistencia en sesiones largas, la fiabilidad en tareas complejas y la capacidad de sostener razonamientos extensos sin perder precisión. La compañía mantuvo el mismo precio que en la versión anterior, algo que subraya su intención de mejorar el rendimiento sin trasladar el costo al usuario, y acompañó el lanzamiento con ajustes en la plataforma que buscan dar más control sobre el comportamiento del modelo, especialmente en entornos profesionales.
En esta versión, Opus muestra una mayor estabilidad en flujos prolongados y una tendencia más marcada a detectar errores, tanto en código como en razonamientos intermedios. Los equipos que participaron en las pruebas tempranas coincidieron en que el modelo formula preguntas más pertinentes, identifica inconsistencias con mayor frecuencia y evita ejecutar acciones de gran escala sin verificar antes los pasos previos. En pruebas de agentes, completó todos los casos del benchmark Super-Agent, un conjunto de tareas diseñado para evaluar la capacidad de un modelo para planificar, actuar y corregirse en contextos complejos. Aunque estos resultados provienen de evaluaciones internas, coinciden con tendencias observadas en otros modelos recientes: la mejora no se centra tanto en aumentar la potencia bruta, sino en refinar la capacidad de sostener procesos largos sin degradación.
En ámbitos legales, Anthropic señaló que Opus 4.8 alcanzó la puntuación más alta registrada por la compañía en su Legal Agent Benchmark, superando el umbral del 10% en el estándar “all-pass”, un indicador que la empresa utiliza para medir la posibilidad de delegar tareas jurídicas sustantivas con un nivel razonable de confianza. En análisis financiero y documental, los evaluadores reportaron mejoras en la precisión de las citas, en la recuperación de información y en la coherencia de razonamientos extensos, algo que suele ser crítico en auditorías, revisiones contractuales o análisis de riesgos.
Uno de los cambios más visibles está en la forma en que el modelo expresa incertidumbre. Según Anthropic, Opus 4.8 es cuatro veces menos propenso que su predecesor a dejar pasar errores en código generado sin advertirlos, y muestra una mayor disposición a señalar cuando no cuenta con suficiente información para sostener una afirmación. El equipo de Alineación observó mejoras en rasgos prosociales, como el apoyo a la autonomía del usuario y la tendencia a actuar en su interés, junto con una reducción en comportamientos no alineados, como la cooperación con usos indebidos o la generación de respuestas engañosas. Estas características lo sitúan, según la compañía, en niveles comparables a Claude Mythos Preview, el modelo experimental que Anthropic utiliza para explorar técnicas de alineación más avanzadas.
El lanzamiento vino acompañado de nuevas funciones en la plataforma. Claude Code incorporó flujos dinámicos en vista previa de investigación, una capacidad que permite al modelo planificar y ejecutar tareas de gran escala mediante cientos de subagentes paralelos. Esta función apunta a casos como migraciones de código de cientos de miles de líneas, donde el sistema puede dividir el trabajo, verificar resultados y ensamblar la solución final sin que el usuario tenga que supervisar cada paso. En claude.ai y Cowork se añadió un control de esfuerzo que permite ajustar la profundidad del razonamiento: niveles altos dedican más ciclos de pensamiento y tokens para mejorar la calidad, mientras que niveles bajos priorizan la rapidez y el ahorro de recursos. La API de mensajes también recibió una actualización que permite incluir instrucciones de sistema dentro del arreglo de mensajes, lo que facilita ajustar el comportamiento del modelo sin reiniciar el contexto.
Opus 4.8 utiliza por defecto un nivel de esfuerzo alto, que Anthropic considera el punto de equilibrio entre calidad y experiencia. Para tareas especialmente complejas, la compañía recomienda el nivel “extra”, que incrementa el uso de tokens pero mejora la precisión en flujos prolongados. En paralelo, el modo rápido redujo su costo y opera ahora a 2,5 veces la velocidad por un precio tres veces menor que en versiones anteriores, una decisión que busca facilitar el uso intensivo en contextos donde la latencia es un factor determinante.
La disponibilidad es global y los precios se mantienen en 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, mientras que el modo rápido se sitúa en 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida. Anthropic adelantó que trabaja en modelos con capacidades similares a Opus pero con costos más bajos, así como en una nueva clase de modelos más avanzados. En el marco de Project Glasswing, algunas organizaciones ya utilizan Claude Mythos Preview para tareas de ciberseguridad, aunque su disponibilidad general dependerá de la implementación de salvaguardas adicionales.
Fuente: Anthropic | Editado por CDOL







































