Todos queremos ver reflejados nuestros valores humanos ideales en nuestras tecnologías. Esperamos que tecnologías como la inteligencia artificial (IA) no nos mientan, que no discriminen y que sean seguras para nosotros y nuestros hijos. Sin embargo, muchos creadores de IA se enfrentan actualmente a una reacción violenta por los sesgos, las inexactitudes y las prácticas de datos problemáticas que se exponen en sus modelos. Estos problemas requieren algo más que una solución técnica, algorítmica o basada en IA. En realidad, se requiere un enfoque holístico y sociotécnico.
Las matemáticas demuestran una verdad poderosa
Todos los modelos predictivos, incluida la IA, son más precisos cuando incorporan inteligencia y experiencia humanas diversas. Esto no es una opinión; tiene validez empírica. Consideremos el teorema de predicción de diversidad. En pocas palabras, cuando la diversidad en un grupo es grande, el error de la multitud es pequeño, lo que apoya el concepto de «la sabiduría de la multitud».
En un estudio influyente, se demostró que diversos grupos de solucionadores de problemas de baja capacidad pueden superar a los grupos de solucionadores de problemas de alta capacidad (Hong y Page, 2004).
Un estudio posterior proporcionó más cálculos que refinan las definiciones estadísticas de una multitud sabia, incluida la ignorancia de las predicciones de otros miembros y la inclusión de aquellos con predicciones o juicios máximamente diferentes (correlacionados negativamente). Por lo tanto, no es solo el volumen, sino la diversidad lo que mejora las predicciones. ¿Cómo podría afectar esta información a la evaluación de los modelos de IA?
(in)precisión del modelo
Citando un aforismo común, todos los modelos están equivocados. Esto es válido en las áreas de estadística, ciencia e inteligencia artificial. Los modelos creados con falta de experiencia en el dominio pueden dar lugar a resultados erróneos.
Hoy en día, un pequeño grupo homogéneo de personas determina qué datos usar para entrenar modelos de IA generativa, que se extraen de fuentes que sobrerrepresentan en gran medida el inglés. «Para la mayoría de los más de 6.000 idiomas del mundo, los datos de texto disponibles no son suficientes para entrenar un modelo de fundación a gran escala» (de «On the Opportunities and Risks of Foundation Models», Bommasani et al., 2022).
Además, los propios modelos se crean a partir de arquitecturas limitadas: «Casi todos los modelos de PNL de última generación se adaptan ahora a partir de uno de los pocos modelos básicos, como BERT, RoBERTa, BART, T5, etc. Si bien esta homogeneización produce un apalancamiento extremadamente alto (cualquier mejora en los modelos básicos puede conducir a beneficios inmediatos en todo el PNL), también es una desventaja; todos los sistemas de IA podrían heredar los mismos sesgos problemáticos de algunos modelos básicos (Bommasani et al.)»
Para que la IA generativa refleje mejor las diversas comunidades a las que sirve, una variedad mucho más amplia de datos de seres humanos debe estar representada en modelos.
La evaluación de la precisión del modelo va de la mano con la evaluación del sesgo.
Debemos preguntarnos, ¿cuál es la intención del modelo y para quién está optimizado? Considere, por ejemplo, quién se beneficia más de los algoritmos de recomendación de contenido y los algoritmos de los motores de búsqueda. Las partes interesadas pueden tener intereses y objetivos muy diferentes. Los algoritmos y modelos requieren objetivos o proxies para el error de Bayes: el error mínimo que un modelo debe mejorar. Este proxy suele ser una persona, como un experto en la materia con experiencia en el dominio.
Un reto muy humano: evaluar el riesgo antes de la adquisición o el desarrollo del modelo
Las nuevas regulaciones y planes de acción de la IA subrayan cada vez más la importancia de los formularios de evaluación de impacto algorítmico. El objetivo de estos formularios es capturar información crítica sobre los modelos de IA para que los equipos de gobernanza puedan evaluar y abordar sus riesgos antes de implementarlos. Las preguntas típicas incluyen:
¿Cuál es el caso de uso de su modelo?
¿Cuáles son los riesgos de un impacto dispar?
¿Cómo evalúan la equidad?
¿Cómo estás haciendo que tu modelo sea explicable?
Aunque está diseñado con buenas intenciones, el problema es que la mayoría de los propietarios de modelos de IA no entienden cómo evaluar los riesgos para su caso de uso. Un estribillo común podría ser: «¿Cómo podría mi modelo ser injusto si no recopila información de identificación personal (PII)?» En consecuencia, los formularios rara vez se completan con la consideración necesaria para que los sistemas de gobernanza señalen con precisión los factores de riesgo.
De este modo, se subraya el carácter sociotécnico de la solución. Al propietario de un modelo, un individuo, no se le puede dar simplemente una lista de casillas de verificación para evaluar si su caso de uso causará daño. En cambio, lo que se requiere son grupos de personas con experiencias muy variadas en el mundo de la vida que se reúnan en comunidades que ofrezcan seguridad psicológica para tener conversaciones difíciles sobre el impacto dispar.
Dar la bienvenida a perspectivas más amplias para una IA fiable
IBM cree en adoptar un enfoque de «cliente cero», implementando las recomendaciones y los sistemas que haría para sus propios clientes a través de soluciones de consultoría y basadas en productos. Este enfoque se extiende a las prácticas éticas, razón por la cual IBM creó un Centro de Excelencia de IA (COE) confiable.
Como se explicó anteriormente, la diversidad de experiencias y conjuntos de habilidades es fundamental para evaluar adecuadamente los impactos de la IA. Pero la perspectiva de participar en un Centro de Excelencia podría ser intimidante en una empresa repleta de innovadores, expertos e ingenieros distinguidos en IA, por lo que es necesario cultivar una comunidad de seguridad psicológica. IBM comunica esto claramente diciendo: «¿Interesado en la IA? ¿Le interesa la ética de la IA? Tienes un asiento en esta mesa».
El COE ofrece formación en ética de la IA a profesionales de todos los niveles. Se ofrecen programas de aprendizaje sincrónico (profesor y estudiantes en clase) y asincrónicos (autoguiados).
Pero es la capacitación aplicada del COE la que brinda a nuestros profesionales los conocimientos más profundos, ya que trabajan con equipos globales, diversos y multidisciplinarios en proyectos reales para comprender mejor el impacto dispar. También aprovechan los marcos de pensamiento de diseño que el grupo de Diseño para IA de IBM utiliza internamente y con los clientes para evaluar los efectos no deseados de los modelos de IA, teniendo en cuenta a aquellos que a menudo son marginados. (Véase Wheel of Power and Privilege, de Sylvia Duckworth, para ver ejemplos de cómo las características personales se cruzan para privilegiar o marginar a las personas). IBM también donó muchos de los frameworks a la comunidad de código abierto Design Ethically.
A continuación se muestran algunos de los informes que IBM ha publicado públicamente sobre estos proyectos:
La Fundación de la Cámara de Comercio de EE. UU. e IBM exploran las aplicaciones de la IA generativa para la contratación basada en habilidades.
Cómo el Titanic nos ayudó a pensar en la IA explicable.
Un marco para hacer que los principios de la IA sean procesables
Se requieren herramientas automatizadas de gobernanza de modelos de IA para obtener información importante sobre el rendimiento de su modelo de IA. Pero tenga en cuenta que capturar el riesgo mucho antes de que su modelo se haya desarrollado y esté en producción es óptimo. Al crear comunidades de profesionales diversos y multidisciplinarios que ofrecen un espacio seguro para que las personas tengan conversaciones difíciles sobre el impacto dispar, puede comenzar su viaje para poner en práctica sus principios y desarrollar la IA de manera responsable.
En la práctica, cuando se contrate a profesionales de la IA, hay que tener en cuenta que más del 70% del esfuerzo en la creación de modelos consiste en seleccionar los datos adecuados. Desea contratar a personas que sepan cómo recopilar datos que sean representativos y que también se recopilen con consentimiento. También desea que las personas que saben trabajen en estrecha colaboración con expertos en el dominio para asegurarse de que tienen el enfoque correcto. Es fundamental garantizar que estos profesionales tengan la inteligencia emocional necesaria para afrontar el reto de curar la IA de forma responsable con humildad y discernimiento. Debemos tener la intención de aprender a reconocer cómo y cuándo los sistemas de IA pueden exacerbar la desigualdad tanto como pueden aumentar la inteligencia humana.
Autor: Phaedra Boinodiris, líder del grupo de consultoría de IA responsable de IBM.