Por qué los datos siguen siendo el mayor reto para los proyectos de aprendizaje automático

0
43

Los datos de calidad están en el centro del éxito de la inteligencia artificial (IA) empresarial. Y, en consecuencia, sigue siendo la principal fuente de desafíos para las empresas que quieren aplicar el aprendizaje automático (ML) en sus aplicaciones y operaciones.

Según el último informe sobre el estado de la IA de Appen, el sector ha realizado impresionantes avances para ayudar a las empresas a superar las barreras que supone la obtención y preparación de sus datos. Pero aún queda mucho por hacer a diferentes niveles, incluyendo la estructura organizativa y las políticas de la empresa.

El costo de los datos
El ciclo de vida de la IA empresarial puede dividirse en cuatro etapas: Obtención de datos, preparación de datos, prueba y despliegue de modelos y evaluación de modelos.

Los avances en computación y herramientas de ML han ayudado a automatizar y acelerar tareas como el entrenamiento y la prueba de diferentes modelos de ML. Las plataformas de computación en la nube permiten entrenar y probar simultáneamente docenas de modelos de diferentes tamaños y estructuras. Pero a medida que los modelos de aprendizaje automático crecen en número y tamaño, necesitarán más datos de entrenamiento.

Por desgracia, la obtención de datos de entrenamiento y la anotación siguen requiriendo un considerable esfuerzo manual y son en gran medida específicos de la aplicación. Según el informe de Appen, «la falta de datos suficientes para un caso de uso específico, las nuevas técnicas de aprendizaje automático que requieren mayores volúmenes de datos, o que los equipos no dispongan de los procesos adecuados para obtener fácil y eficazmente los datos que necesitan».

«Se necesitan datos de entrenamiento de alta calidad para un rendimiento preciso del modelo; y los conjuntos de datos grandes e inclusivos son caros», dijo la directora de producto de Appen, Sujatha Sagiraju, en una entrevista. «Sin embargo, es importante tener en cuenta que los datos de IA valiosos pueden aumentar las posibilidades de que su proyecto pase de piloto a producción; por lo tanto, el gasto es necesario».

Los equipos de ML pueden empezar con conjuntos de datos preetiquetados, pero con el tiempo tendrán que recopilar y etiquetar sus propios datos personalizados para escalar sus esfuerzos. Dependiendo de la aplicación, el etiquetado puede resultar extremadamente caro y laborioso.

En muchos casos, las empresas tienen suficientes datos, pero no pueden hacer frente a los problemas de calidad. Los datos sesgados, mal etiquetados, inconsistentes o incompletos reducen la calidad de los modelos de ML, lo que a su vez perjudica el ROI de las iniciativas de IA.

«Si entrenas los modelos de ML con datos malos, las predicciones del modelo serán inexactas», dijo Sagiraju. «Para garantizar que su IA funcione bien en escenarios del mundo real, los equipos deben tener una mezcla de conjuntos de datos de alta calidad, datos sintéticos y evaluación humana en el bucle en su kit de entrenamiento.»

La brecha entre los científicos de datos y los líderes empresariales
Según Appen, los líderes empresariales son mucho menos propensos que el personal técnico a considerar el abastecimiento y la preparación de datos como los principales desafíos de sus iniciativas de IA. «Todavía hay brechas entre los tecnólogos y los líderes empresariales a la hora de entender los mayores cuellos de botella en la implementación de datos para el ciclo de vida de la IA. Esto da lugar a un desajuste en las prioridades y el presupuesto dentro de la organización», según el informe de Appen.

«Lo que sabemos es que algunos de los mayores cuellos de botella para las iniciativas de IA radican en la falta de recursos técnicos y la aceptación de los ejecutivos», dijo Sagiraju. «Si se echa un vistazo a estas categorías, se ve que los científicos de datos, los ingenieros de aprendizaje automático, los desarrolladores de software y los ejecutivos están dispersos en diferentes áreas, por lo que no es difícil imaginar una falta de estrategia alineada debido a las prioridades conflictivas entre los diversos equipos dentro de la organización.»

La variedad de personas y funciones que intervienen en las iniciativas de IA hace que sea difícil lograr esta alineación. Desde los desarrolladores que gestionan los datos, pasando por los científicos de datos que se ocupan de los problemas sobre el terreno, hasta los ejecutivos que toman las decisiones estratégicas del negocio, todos tienen diferentes objetivos en mente y, por tanto, diferentes prioridades y presupuestos.

Sin embargo, Sagiraju ve que la brecha se está reduciendo lentamente año tras año cuando se trata de entender los desafíos de la IA. Y esto se debe a que las organizaciones están comprendiendo mejor la importancia de los datos de alta calidad para el éxito de las iniciativas de IA.

«El énfasis en lo importante que son los datos -especialmente los de alta calidad que coinciden con los escenarios de aplicación- para el éxito de un modelo de IA ha hecho que los equipos se unan para resolver estos desafíos», dijo Sagiraju.

Tendencias prometedoras en el aprendizaje automático
Los retos relacionados con los datos no son nuevos en el campo del ML aplicado. Pero a medida que los modelos de ML crecen y los datos se vuelven más abundantes, es necesario encontrar soluciones escalables para reunir datos de entrenamiento de calidad.

Afortunadamente, algunas tendencias están ayudando a las empresas a superar algunos de estos retos, y el informe sobre IA de Appen muestra que el tiempo medio dedicado a la gestión y preparación de los datos tiende a reducirse.

Un ejemplo es el etiquetado automático. Por ejemplo, los modelos de detección de objetos requieren que se especifiquen los cuadros delimitadores de cada objeto en los ejemplos de entrenamiento, lo que supone un considerable esfuerzo manual. Las herramientas de etiquetado automatizadas y semiautomatizadas utilizan un modelo de aprendizaje profundo para procesar los ejemplos de entrenamiento y predecir los cuadros delimitadores. Las etiquetas automatizadas no son perfectas, y un etiquetador humano debe revisarlas y ajustarlas, pero aceleran el proceso de forma significativa. Además, el sistema de etiquetado automatizado puede seguir siendo entrenado y mejorado a medida que recibe comentarios de los etiquetadores humanos.

«Aunque muchos equipos empiezan a etiquetar manualmente sus conjuntos de datos, cada vez son más los que recurren a métodos que ahorran tiempo para automatizar parcialmente el proceso», afirma Sagiraju.

Al mismo tiempo, existe un mercado creciente de datos sintéticos. Las empresas utilizan datos generados artificialmente para complementar los datos que recogen del mundo real. Los datos sintéticos son especialmente útiles en aplicaciones en las que obtener datos del mundo real es costoso o peligroso. Un ejemplo es el de las empresas de coches autoconducidos, que se enfrentan a problemas normativos, de seguridad y legales para obtener datos de las carreteras reales.

«Los coches autoconducidos necesitan cantidades increíbles de datos para ser seguros y estar preparados para cualquier cosa una vez que salgan a la carretera, pero algunos de los datos más complejos no están fácilmente disponibles», dijo Sagiraju. «Los datos sintéticos permiten a los profesionales tener en cuenta los casos límite o los escenarios peligrosos, como los accidentes, el cruce de peatones y los vehículos de emergencia, para entrenar eficazmente sus modelos de IA». Los datos sintéticos pueden crear instancias para entrenar los datos cuando no hay suficientes datos de origen humano. Es fundamental para llenar los vacíos».

Al mismo tiempo, la evolución del mercado de MLops está ayudando a las empresas a afrontar muchos de los retos del proceso de aprendizaje automático, como el etiquetado y las versiones de los conjuntos de datos; el entrenamiento, las pruebas y la comparación de diferentes modelos de ML; el despliegue de modelos a escala y el seguimiento de su rendimiento; y la recopilación de nuevos datos y la actualización de los modelos a lo largo del tiempo.

Pero a medida que el ML desempeñe un mayor papel en las empresas, algo que será más importante es el control humano.

«Las evaluaciones humanas en el bucle (HITL) son imprescindibles para proporcionar información precisa y relevante y evitar los sesgos», afirma Sagiraju. «A pesar de lo que muchos creen acerca de que los humanos realmente están en un segundo plano en el entrenamiento de la IA, creo que veremos una tendencia hacia más evaluaciones HITL en un esfuerzo por empoderar a la IA responsable, y tener más transparencia sobre lo que las organizaciones están poniendo en sus modelos para asegurar que los modelos se desempeñen bien en el mundo real.»

Fuente WEB | Editado por CambioDigital OnLine

Custom Text
Artículo anteriorLa VPN Google One llega a los ordenadores Windows y Mac
Artículo siguienteIBM lanza una solución de servicios gestionados en la nube para VMware