También en las redes neuronales los resultados son tan buenos como los datos con los que se alimentan

0
58

Al igual que otros tipos de computación, si se introducen datos basura en una ejecución de entrenamiento de aprendizaje automático y luego se vierten nuevos datos a través de ella, lo que sale como respuesta es un puré de basura.

Hay mucho de cierto en los discursos, a veces exagerados, sobre cómo la inteligencia artificial y el aprendizaje automático cambiarán -e incluso ya lo están haciendo- el mundo de los negocios, desde el aumento de la productividad y la eficiencia operativa hasta la toma de decisiones empresariales más rápidas y mejores basadas en las montañas de datos que se generan para automatizar los procesos rutinarios. Y es un negocio en auge, ya que Gartner predice que las ventas mundiales de software de IA este año alcanzarán los 62.500 millones de dólares, lo que supone un aumento del 21,3% interanual.

Pero esa montaña de datos está contaminada, y eso socava este panorama tan halagüeño. Los datos defectuosos -o los que no son suficientes, o los obsoletos o con errores- darán lugar a un modelo de entrenamiento defectuoso y a un proyecto de IA contaminado. Los datos de entrenamiento deben estar limpios -con el menor número de errores posible- y completos, y los algoritmos utilizados para recopilar los datos deben estar libres de sesgos, una cuestión espinosa con la que los usuarios de IA y los proveedores de software que intentan ayudarles siguen luchando.

Vikram Chatterji fue testigo de muchos de estos problemas durante sus más de tres años como jefe de gestión de productos del negocio de IA en la nube de Google. Las empresas pueden tener buenos modelos de entrenamiento, pero «el aprendizaje automático se alimenta completamente de datos y hay que asegurarse de no tener ese problema de entrada y salida de basura», dice Chatterji a The Next Platform.

También vio los procesos lentos, largos y muy manuales que los desarrolladores tenían que llevar a cabo para detectar y corregir errores en los datos, no sólo al principio del proyecto, sino a medida que se entrenaban los modelos. Gran parte de la atención en estos proyectos se centraba en el modelo, pero el reto estaba en los datos y los científicos de datos utilizaban hojas de cálculo de Google Sheets y scripts de Python para analizar los datos y determinar dónde tenía problemas el modelo.

Encontrar y corregir errores suele consumir el 50% del tiempo de los científicos de datos, dice.

«Hay todas estas herramientas brillantes en el espacio de ML que están saliendo ahora y todas se centran en los modelos, dice Chatterji. «Todas se centran en el despliegue del modelo, en la supervisión del modelo. Pero los datos ocupaban entre el 80 y el 90 por ciento del tiempo de mi equipo. Si miras sus monitores, hay todas estas hojas de cálculo de Excel y hojas de Google, y mi pregunta para ellos era: ‘¿Qué estás tratando de averiguar? Siempre decían que los datos podían tener algunos sesgos ocultos, que podían tener mucha basura. Te sorprendería la cantidad de basura que se introduce, texto vacío y diferentes idiomas. Yo espero que sean ingleses, pero resulta que todo es español o alemán y mi modelo no tiene ni idea de qué hacer con ello y ¿cómo lo averiguo? Esa es la realidad de las cosas».

Ese era el reto que Chatterji, Atindriyo Sanyal y Yash Sheth querían abordar cuando fundaron Galileo el año pasado y recientemente la sacaron del anonimato con 5,1 millones de dólares de financiación. Crearon una plataforma de software diseñada para permitir a los desarrolladores y a los científicos de datos encontrar y corregir los errores en los conjuntos de datos de entrenamiento de la IA de forma más rápida -10 veces más rápida, afirman- y precisa a lo largo del ciclo de vida del proyecto de aprendizaje automático, con el objetivo de ofrecer la plataforma como un servicio basado en la nube.

La empresa cuenta con 14 empleados, la mitad de ellos dedicados a la investigación del aprendizaje automático. Sanyal pasó más de cinco años en Apple, en el equipo de Siri, antes de dar el salto a Uber AI como responsable técnico del proyecto de aprendizaje automático Michelangelo de la empresa. Sheth trabajó en la plataforma Speech Recognizer de Google durante sus casi nueve años en la empresa.

Estructura de la Plataforma Galileo | Fuente: Galileo

Utilizando la plataforma de software del proveedor, los científicos de datos pueden visualizar los datos, dice Chatterji. La plataforma se compone esencialmente de tres capas, que incluyen la interfaz de usuario en la parte superior y el motor de inteligencia Galileo en la parte inferior, que alberga todos los algoritmos desarrollados por la empresa que permiten a los científicos de datos realizar cálculos estadísticos. En la base está la capa de datos, que almacena la mayor parte de los datos de aprendizaje automático -sobre todo los no estructurados- y los metadatos.

La plataforma se despliega en un clúster Kubernetes en un entorno de nube, del que los datos nunca salen, un aspecto importante para las empresas que quieren proteger la privacidad de los datos. Viene con un modelo de precios por consumo.

«La combinación de estos tres permite que el científico de datos realmente haga rápidamente una ejecución de entrenamiento en cualquier herramienta y producto que esté usando para hacer su entrenamiento, agregue unas pocas líneas de código de Galileo y en el otro lado, en la interfaz de usuario, ven esta experiencia mágica porque ahora muy rápidamente están viendo toda esta matemática compleja que se hace y se visualiza para ellos, y obtienen respuestas a donde deberían estar los errores», dice. «Es un salto de nivel en la forma en que incluso pensaban en los datos de ML».

La plataforma Galileo muestra la información de un par de maneras. Una es similar a un mapa de calor, que ofrece una representación bidimensional de cómo el modelo observó los datos que pueden ser coloreados utilizando las métricas que el proveedor desarrolló. También hay otra vista que es similar a una hoja de cálculo de Excel a la que muchos científicos de datos están acostumbrados, pero en la que pueden ordenar por métricas de tal manera que los puntos problemáticos salen a la luz rápidamente.

Los errores en los datos pueden cubrir un amplio espectro, incluyendo la curación, que incluye el grado de confianza de las fuentes de datos, la limpieza de los datos y la representación de características generales. Los errores de etiquetado -a veces causados por los humanos, otras veces por las máquinas- pueden dar lugar a predicciones inexactas, mientras que la frescura de los datos también es importante dada la frecuencia con que se reutilizan los conjuntos de datos etiquetados a lo largo del tiempo.

Las situaciones pueden cambiar rápidamente durante una situación como la pandemia de COVID-19. Los datos recogidos al principio del ciclo pueden quedar obsoletos cuando se produce un pico de casos u hospitalizaciones o una introducción de nuevas variantes. También existe la preocupación constante por los sesgos en los conjuntos de datos que podrían sesgar los resultados. Los datos que se inclinan en gran medida hacia los hombres o que se basan más en una raza que en otra pueden dar lugar a prejuicios en los algoritmos desarrollados para un proyecto o sesgar los resultados finales.

Se han producido algunos casos destacados de introducción de prejuicios involuntarios, como en una herramienta de contratación basada en la IA desarrollada por Amazon que mostraba prejuicios contra las mujeres o un algoritmo diseñado para calificar las predicciones de riesgo sanitario que utilizaba los datos de gasto sanitario de los pacientes para representar las necesidades médicas, lo que dio lugar a prejuicios raciales.

La industria tecnológica sigue buscando formas de abordar el problema del sesgo. Recientemente, el Instituto Nacional de Estándares y Tecnología (NIST) ha publicado un informe de 86 páginas en el que aborda el sesgo en la IA y el aprendizaje automático y promete crear métodos para detectar, medir y reducir el sesgo.

Chatterji utiliza el lenguaje como ejemplo de cómo puede introducirse el sesgo. Si el modelo de entrenamiento está ajustado para datos en inglés, puede tropezar si se introducen datos en español, sin saber qué hacer con ellos. Si eso ocurre, los científicos de datos pueden añadir más datos en español.

«La pregunta se convierte en qué tipo de datos debo añadir, y tienes este equipo de adquisición de datos y otros y básicamente les pides que te den más datos de ese tipo concreto», dice. «Ahí es donde también ayudamos porque podemos decirte: ‘¿Por qué no ingieres muchos de los datos que te llegan y luego, en cuanto veas las partes que son difíciles para tu modelo -como los datos españoles- puedes hacer una rápida búsqueda de similitudes? Tenemos algoritmos de agrupación de similitudes incorporados. Con sólo pulsar un botón, puedes decir: ‘Dame cien muestras más que sean similares a esta de mi otro corpus de datos’, y puede extraerlas fácilmente».

Galileo también almacena los datos y metadatos a medida que se entrena el modelo e incluye un mecanismo de seguimiento que utiliza tablas y gráficos que muestran cómo un cambio en los datos que se están utilizando ha afectado al modelo, lo que, según él, «sistematiza todo este mecanismo súper ad hoc».

La plataforma Galileo está en fase beta privada, y el proveedor trabaja con una docena de empresas que van desde las 500 de Fortune hasta las nuevas. El objetivo es que esté disponible de forma general a finales de este año o en el primer trimestre de 2023.

CambioDigital OnLine | Fuente WEB

Custom Text
Artículo anterior¿La privacidad y la forma de almacenar los datos de la Web3 podrán empoderar a la sociedad?
Artículo siguienteApple recluta a directores de Hollywood para la creación de contenidos para su visor