¿Son los datos sintéticos el futuro de la IA?

0
83

Los datos sintéticos a menudo se tratan como un sustituto de menor calidad y se utilizan cuando los datos reales son difíciles de obtener, costosos o restringidos por la regulación. Sin embargo, esta reacción pierde el verdadero potencial de los datos sintéticos. Gartner estima que para 2030, los datos sintéticos eclipsarán por completo a los datos reales en los modelos de IA.

Los analistas de Gartner discutirán los casos de uso y la perspectiva de los datos sintéticos en las próximas Cumbres de datos y análisis de Gartner , que se llevarán a cabo regionalmente de agosto a noviembre.

Nos reunimos con Alexander Linden , vicepresidente analista de Gartner, para comprender la promesa de los datos sintéticos y por qué son fundamentales para el futuro de la IA. Los miembros de los medios de comunicación que deseen asistir a las próximas conferencias y/o hablar con Alexander pueden comunicarse con Laurence Goasduff.

P: ¿Cuál es la promesa de los datos sintéticos y cuándo usarlos?
R: Los datos sintéticos son una clase de datos que se generan artificialmente. Está en contraste con los datos reales que se observan directamente desde el mundo real. Si bien los datos reales son casi siempre la mejor fuente de información a partir de los datos, los datos reales suelen ser costosos, desequilibrados, no disponibles o inutilizables debido a las normas de privacidad. Los datos sintéticos pueden ser un complemento eficaz o una alternativa a los datos reales, ya que brindan acceso a datos mejor anotados para crear modelos de IA precisos y extensibles. Cuando se combinan con datos reales, los datos sintéticos crean un conjunto de datos mejorado que a menudo puede mitigar las debilidades de los datos reales.

Las organizaciones pueden usar datos sintéticos para probar un nuevo sistema donde no existen datos en vivo o cuando los datos están sesgados. También pueden aprovechar los datos sintéticos para complementar pequeños conjuntos de datos existentes que actualmente se ignoran. Alternativamente, eligen datos sintéticos cuando los datos reales no se pueden usar, no se pueden compartir o no se pueden mover. En ese sentido, los datos sintéticos son otro habilitador de IA.

P: ¿Por qué los datos sintéticos son imprescindibles y esenciales para el futuro de la IA?
R: Hay muchas otras formas de datos sintéticos, como el aumento de datos o la seudomización/anonimización, que son otros tipos de «síntesis de datos». Esos métodos son imprescindibles en cualquier equipo moderno de ciencia de datos. Pero, con los datos sintéticos, los profesionales inyectan información en sus modelos de IA y obtienen datos generados artificialmente que son más valiosos que la observación directa.

Los datos sintéticos se pueden usar para hackatones, demostraciones de productos y creación de prototipos internos para replicar un conjunto de datos con los atributos estadísticos correctos. Por ejemplo, los bancos y las instituciones de servicios financieros utilizan datos sintéticos mediante la creación de simulaciones de múltiples agentes para explorar los comportamientos del mercado (como inversiones en pensiones y préstamos), para tomar mejores decisiones crediticias o para combatir el fraude financiero. Los minoristas utilizan datos sintéticos para sistemas de pago autónomos, tiendas sin cajero o análisis de datos demográficos de los clientes.

Además, los datos sintéticos pueden aumentar la precisión de los modelos de aprendizaje automático. Los datos del mundo real son casualidad y no contienen todas las permutaciones de condiciones o eventos posibles en el mundo real. Los datos sintéticos pueden contrarrestar esto generando datos en los bordes o para condiciones que aún no se han visto.

La amplitud de su aplicabilidad lo convertirá en un acelerador crítico para la IA. Los datos sintéticos hacen posible la IA donde la falta de datos hace que la IA sea inutilizable debido al sesgo o la incapacidad para reconocer escenarios raros o sin precedentes.

P: ¿Cuáles son los riesgos de los datos sintéticos?
R: Si bien las técnicas de datos sintéticos pueden obtener una puntuación bastante alta en términos de rentabilidad y privacidad, tienen riesgos y limitaciones importantes. La calidad de los datos sintéticos a menudo depende de la calidad del modelo que los creó y del conjunto de datos desarrollado.

El uso de datos sintéticos requiere pasos de verificación adicionales, como la comparación de los resultados del modelo con datos del mundo real anotados por humanos, para garantizar la fidelidad de los resultados. Además, los datos sintéticos pueden ser engañosos y pueden conducir a resultados inferiores, y los datos sintéticos pueden no ser 100 % seguros cuando se trata de privacidad.

Debido a estos desafíos tecnológicos, el escepticismo de los usuarios también podría ser otro desafío difícil de superar para los datos sintéticos, ya que los usuarios pueden percibirlos como datos «inferiores» o «falsos».

Finalmente, a medida que los datos sintéticos obtienen una adopción más amplia, los líderes empresariales pueden plantear preguntas sobre la apertura de las técnicas de generación de datos, especialmente cuando se trata de transparencia y explicabilidad.

Cumbre de análisis y datos de Gartner
Los analistas de Gartner proporcionarán un análisis adicional sobre el futuro de los datos sintéticos en Gartner Data & Analytics Summits 2022, que tendrá lugar del 22 al 24 de agosto en Orlando, FL. , del 14 al 16 de septiembre en Tokio , del 19 al 20 de septiembre en Mumbai y del 7 al 8 de noviembre en Sydney . Siga las noticias y actualizaciones de las conferencias en Twitter usando #GartnerDA .

Los clientes de Gartner pueden encontrar más información en el informe Tecnologías emergentes: cuándo y cómo usar datos sintéticos . Aprenda a desbloquear las habilidades y capacidades clave de D&A requeridas para el éxito basado en datos en el libro electrónico gratuito de Gartner Guía esencial de habilidades y capacidades de D&A.

Si es un miembro de los medios de comunicación que desea hablar más sobre este tema con Alexander Linden, comuníquese con Laurence Goasduff en Laurence.Goasduff@Gartner.com . Los miembros de los medios pueden hacer referencia a este material en sus artículos con la debida atribución a Gartner.

Autor: Alexander Linden.

Custom Text
Artículo anteriorLa filtración de imágenes del futuro dron de DJI sugiere su próximo lanzamiento
Artículo siguienteEl trimestre de Twitter decepciona, «el impacto de Musk también pesa»