Según un informe, los data lakehouses están en vías de dejar obsoletos la mayoría de los almacenes de datos

0
66

Los data lakehouses, un nuevo tipo de almacén de datos que combina la flexibilidad de los lagos de datos con la estructura y el rendimiento de los almacenes de datos, van camino de cooptar a los almacenes de datos, aunque no suplantarán a los lagos de datos ni a los data marts creados ex profeso, predice Tony Baer, veterano analista de bases de datos y fundador de la empresa de investigación dbInsight.

En un nuevo informe publicado hoy, Baer sostiene que, aunque los «lakehouses» carecen de algunas de las características más sofisticadas de sus predecesores maduros, las lagunas se están colmando rápidamente y se subsanarán en gran medida en los próximos 12 a 18 meses. «El lago de datos consiste en ofrecer lo mejor de ambos mundos: la escala y flexibilidad del lago de datos con los acuerdos de nivel de servicio, la repetibilidad y la gobernanza madura del almacén de datos», escribe.

Es probable que se produzca una cierta reducción del mercado, liderado actualmente por tres plataformas de código abierto: Delta Lake de Databricks Inc., Apache Hudi y Apache Iceberg. De la misma manera que el mercado de los dispositivos móviles se asentó en dos estándares -iOS de Apple Inc. y Android, de código abierto-, los compradores empresariales querrán tener una gama limitada de opciones y ecosistemas sólidos.

Delta Lake e Iceberg a la cabeza
Delta Lake e Iceberg ocupan las primeras posiciones, pero grandes empresas tecnológicas como IBM Corp. y SAP SE aún no han apostado por ellas y su respaldo podría elevar el perfil de Hudi. Onehouse, una startup lanzada por el principal desarrollador de Hudi, anunció hace menos de dos semanas una nueva financiación de 25 millones de dólares.

Según Baer, los «lakehouses» aportan al mercado muchas de las ventajas de los almacenes de datos a un coste inferior y con soporte para una combinación de datos estructurados y no estructurados. Las plataformas actuales presentan características similares a las de los almacenes, como la atomicidad, la coherencia, el aislamiento y el cumplimiento de la durabilidad, lo que garantiza que las transacciones se procesen de forma fiable. Ofrecen funciones de lectura de esquemas y transformación de datos mediante plataformas de código abierto como Apache Spark, Apache Drill y Apache Trino.

Los lakehouses modernos pueden gestionar cargas de trabajo de aprendizaje automático analítico de varios petabytes con niveles de rendimiento que rivalizan con los almacenes de datos. Para ello, admiten estructuras de tablas relacionales sobre formatos de archivos semiestructurados como Parquet y CSV que se ejecutan en almacenamiento de objetos de bajo coste. Además, admiten consultas de «viaje en el tiempo» contra datos en distintos momentos, lo que permite a los usuarios recorrer el historial de la decisión.

Lagunas por cubrir
Dicho esto, Baer señala que aún quedan algunas lagunas por cubrir. La mayoría de las primeras implementaciones no gestionan automáticamente el almacenamiento en la nube. Las transacciones multitabla y las uniones se habilitan a través de funcionalidades propias y las tablas funcionan sobre una base de sólo apéndices, lo que significa que los datos más antiguos deben podarse periódicamente.

Algunos proveedores, como Amazon Web Services Inc., Oracle Corp. y Teradata Corp., siguen utilizando formatos de tabla propietarios, pero Baer cree que el código abierto se impondrá a largo plazo. Una estructura de tablas coherente «siempre ha sido la apuesta, no el elemento diferenciador, entre los almacenes de datos, y eso no cambiará con los almacenes de lagos de datos», escribe.

Los ecosistemas de mercado, y no las diferencias tecnológicas, definirán a los ganadores y perdedores, opina Baer. Por ejemplo, Databricks admite funciones de lectura y escritura a través de su ecosistema de socios, mientras que Iceberg se combina con un puñado de plataformas analíticas.

Los lagos de datos, los almacenes de datos específicos y los data marts no desaparecerán, predice Baer. Los almacenes de lagos serán excesivos para los marts de datos pequeños y las cargas de trabajo de propósito único, y aún no son lo bastante robustos para manejar múltiples uniones externas y una alta concurrencia. Sin embargo, el código abierto mejora constantemente y probablemente subsanará estas deficiencias con el tiempo, al igual que las bases de datos relacionales superaron sus primeras desventajas de rendimiento.

Fuente WEB | Editado por CambioDigital OnLine

Custom Text
Artículo anteriorDirectores financieros mantienen cautela sobre sus perspectivas para 2023 y reducen presupuestos
Artículo siguienteWestern Digital presenta un disco duro externo de 44 TB con un precio para pocos