Límite analítico: el razonamiento humano supera a la IA en el desafío matemático más exigente

Modelos avanzados de IA no logran superar una evaluación inédita de resolución de problemas complejos.

0
4

El razonamiento humano obtuvo un rendimiento superior frente a cuatro modelos de IA en una evaluación de alta complejidad matemática. Ninguno de los sistemas evaluados logró responder la totalidad de las 10 preguntas formuladas en la prueba, diseñada para medir las capacidades de los algoritmos en la investigación científica. La puntuación más alta la obtuvo la propuesta del Instituto Federal de Tecnología de Zúrich, con 6 soluciones correctas, según los datos compartidos en la publicación especializada Nature.

La evaluación se enmarca en First Proof, una iniciativa independiente que evalúa la evolución de las capacidades de la IA en el ámbito de las matemáticas puras. En la distribución de los resultados, el desarrollo de la Universidad de California en Los Ángeles ocupó la segunda posición, seguido por la herramienta de OpenAI. El último lugar correspondió al sistema de la Universidad de Princeton, cuya estructura tecnológica utilizaba el modelo de lenguaje de Google.

Para evitar que las plataformas utilizaran datos memorizados durante sus fases de entrenamiento, los reactivos del examen no habían sido publicados previamente en internet ni en literatura académica. La validez de las respuestas entregadas por las máquinas fue auditada por un comité integrado por 30 matemáticos profesionales.

La metodología del proyecto exigía que los modelos participantes estuvieran disponibles para el acceso público, motivo por el cual OpenAI fue la única corporación tecnológica global en intervenir de forma directa. Dos de los sistemas restantes recurrieron a la infraestructura de este mismo proveedor, empleando dinámicas de verificación automatizada donde diferentes asistentes virtuales interactúan para corregir los textos generados.

Los análisis posteriores ejecutados por el equipo suizo determinaron que los errores de procesamiento se debieron a la ausencia de deducciones lógicas clave para estructurar los pasos finales. En otros casos, los modelos adoptaron planteamientos iniciales válidos, pero omitieron variables específicas necesarias para concluir el desarrollo analítico.

Fuente: Web. Editado por CDOL.

Custom Text
Artículo anteriorIntegración de IA y tecnología Micro RGB en la nueva línea de pantallas premium
Artículo siguiente35% de las infecciones por infostealers comienzan con usuarios que ejecutan archivos directamente desde carpetas temporales