¿Qué es DataOps? Análisis colaborativo y multifuncional

0
8

DataOps (operaciones de datos) es una metodología ágil, orientada a procesos para desarrollar y producir analítica. Reúne a los equipos de DevOps con ingenieros y científicos de datos de datos para proporcionar las herramientas, los procesos y las estructuras organizativas, y brindarle así soporte a la empresa centrada en los datos. Michele Goetz, vicepresidente y analista principal de Forrester, define DataOps como «la capacidad de habilitar soluciones, desarrollar productos de datos y activar datos para el valor comercial en todos los niveles de tecnología, desde la infraestructura hasta la experiencia”.

Los objetivos de DataOps
Según Dataversity, el objetivo de DataOps es agilizar el diseño, desarrollo y mantenimiento de aplicaciones basadas en datos y analítica de datos. Busca mejorar la forma en que se gestionan los datos y se crean los productos, además de coordinar estas mejoras con los objetivos del negocio.

DataOps versus DevOps
DevOps es una metodología de desarrollo de software que brinda una producción continua al ciclo de vida de desarrollo de sistemas, al combinar equipos de desarrollo y equipos de operaciones en una sola unidad responsable de un producto o servicio. DataOps se basa en ese concepto al agregar especialistas en datos (analistas de datos, desarrolladores de datos, ingenieros de datos y/o científicos de datos) para centrarse en el desarrollo colaborativo de flujos de datos y el uso continuo de datos en toda la organización.

«Tiene la tendencia moderna para el desarrollo de DevOps, pero cada vez más personas están inyectando algún tipo de capacidad de ciencia de datos en el desarrollo, en los sistemas, por lo que necesita a alguien en el equipo de DevOps que tenga una mentalidad de datos”, afirma Ted Dunning, director de tecnología de MapR en HPE y coautor de Machine Learning Logistics: Model Management in the Real World.

Principios de DataOps
Al igual que DevOps, DataOps se inspira en la metodología ágil. El enfoque valora la producción continua de conocimientos de analítica con el objetivo principal de satisfacer al cliente.

Según el Manifiesto de DataOps, los equipos de DataOps valoran las analíticas que funcionan, midiendo el rendimiento de las analíticas de datos en base a la información que brindan. Los equipos de DataOps también adoptan el cambio, y buscan comprender constantemente las necesidades cambiantes de los clientes. Se organizan de manera autónoma en torno a objetivos, y buscan reducir el «heroísmo” a favor de equipos y procesos sostenibles y capaces de aumentar en escala.

De principio a fin, los equipos de DataOps también buscan orquestar datos, herramientas, código y ambientes, con el objetivo de proporcionar resultados reproducibles. Los equipos de DataOps tienden a ver las canalizaciones analíticas como análogas a las líneas de manufactura ligera, y reflexionan regularmente sobre los comentarios proporcionados por los clientes, los miembros del equipo y las estadísticas operativas.

Donde encaja DataOps
Hoy en día, las empresas están inyectando cada vez más el aprendizaje de máquina en una amplia gama de productos y servicios, y DataOps es un enfoque orientado a brindarle soporte a las necesidades integrales del aprendizaje de máquina.

«Por ejemplo, este estilo hace que sea más factible para los científicos de datos contar con el apoyo de la ingeniería de software destinada a proporcionar lo que se necesita cuando los modelos se entregan a las operaciones durante la implementación”, escriben Dunning y la coautora Ellen Friedman, tecnóloga principal de HPE.

«El enfoque de DataOps no se limita al aprendizaje de máquina”, añaden. «Este estilo de organización es útil para cualquier trabajo orientado a datos, lo que facilita el aprovechamiento de los beneficios que ofrece la creación de una estructura de datos global”

También señalan que DataOps encaja bien con arquitecturas de microservicios.

DataOps en la práctica
Según Dunning y Friedman, para aprovechar al máximo DataOps, las empresas deben desarrollar sus estrategias de gestión de datos orientándolas a tratar los datos a escala y en respuesta a los eventos del mundo real a medida que suceden.

«Los roles tradicionalmente aislados pueden resultar demasiado rígidos y lentos para encajar bien en las organizaciones de big data que experimentan una transformación digital”, escriben. «Ahí es donde un estilo de trabajo de DataOps puede ayudar”.

Dado que DataOps se basa en DevOps, los equipos multifuncionales que atraviesan «gremios de habilidades” como operaciones, ingeniería de software, arquitectura y planificación, gestión de productos, análisis de datos, desarrollo de datos e ingeniería de datos son esenciales, y los equipos de DataOps deben gestionarse en formas que garantizan una mayor colaboración y comunicación entre desarrolladores, profesionales de operaciones y expertos en datos.

Los científicos de datos también pueden incluirse como miembros clave de los equipos de DataOps, según Dunning. «Creo que lo más importante que se debe hacer aquí es no quedarse con la organización más tradicional y desconectada de la practicidad, donde los científicos de datos viven separados de los equipos de desarrollo”, afirma. «El paso más importante que puede tomar es integrar a los científicos de datos en un equipo de DevOps. Cuando viven en la misma habitación, comen las mismas comidas, escuchan las mismas quejas, naturalmente se alinearán”.

Pero Dunning también señala que es posible que los científicos de datos no necesiten estar integrados permanentemente en un equipo de DataOps.

«Normalmente, existe un científico de datos integrado en el equipo durante un tiempo”, afirma Dunning. «Sus capacidades y sensibilidades comienzan a contagiarse. Alguien en el equipo entonces asume el papel de ingeniero de datos y una especie de científico de datos de bajo presupuesto. El científico de datos real integrado en el equipo luego avanza. Es una situación fluida”.

Cómo construir un equipo de DataOps
La mayoría de las empresas basadas en DevOps ya tienen el núcleo de un equipo de DataOps a su alcance, afirma Friedman. Una vez que han identificado los proyectos que necesitan un desarrollo intensivo en datos, solo necesitan agregar a alguien con capacitación en datos al equipo. Esa persona puede incluso ser un ingeniero de datos, en lugar de un científico de datos completo.

A menudo, los equipos estarán formados por personas con conjuntos de habilidades superpuestas, o las personas pueden asumir múltiples roles con un equipo de DataOps, según su experiencia.

«En proyectos a gran escala, un rol de DataOps en particular puede ser ocupado por más de una persona, pero también es común que algunas personas cubran más de un rol”, escriben Dunning y Friedman en su libro. «Las habilidades de operaciones e ingeniería de software pueden superponerse; los miembros del equipo con experiencia en ingeniería de software también pueden estar calificados como ingenieros de datos. A menudo, los científicos de datos tienen habilidades de ingeniería de datos. Sin embargo, es raro ver una superposición entre la ciencia de datos y las operaciones”.

Según Goetz, de Forrester, algunas de las áreas clave de experiencia en los equipos de DataOps incluyen:

  • Bases de datos
  • Integración
  • Datos para procesar la orquestación
  • Implementación de políticas de datos
  • Integración de datos y modelos
  • Controles de privacidad y seguridad de datos

Independientemente de la composición, los equipos de DataOps deben compartir un objetivo común: las necesidades basadas en datos de los servicios que soportan.

«Con equipos de ingeniería, buenos ingenieros, lo que debe hacer es establecer bien las metas”, afirma Dunning. «Una vez que existe un objetivo común, la resolución de un problema, el equipo se organiza muy a menudo para resolverlo. La dificultad surge cuando diferentes personas ven diferentes aspectos del problema. Las personas de operaciones estarán preocupadas por la confiabilidad, y que usted obtenga una respuesta dentro de un cierto tiempo. El experto en ciencia de datos tiende a concentrarse en la precisión de la respuesta. Usted ya obtiene un poco de divergencia. Pero si están tratando de resolver el mismo problema, y están dispuestos a comprometerse sobre cómo se resuelve, creo que es una estructura social bastante fácil de construir”.

Roles de DataOps
Según Goetz, los miembros del equipo de DataOps incluyen:

  • Especialistas en datos, que apoyan el panorama de datos y las mejores prácticas de desarrollo.
  • Ingenieros de datos, que brindan soporte ad hoc y de sistemas para BI, analítica y aplicaciones comerciales.
  • Ingenieros de datos principales, que son desarrolladores que trabajan en productos y entregables orientados al cliente.

Thor Olavsrud CIO.com