Grandes volúmenes es el tema de nuestros tiempos. Con el mayor desarrollo tecnológico se acompaña mayor recolección de datos que deben ser manejados. El uso de plataformas distribuidas es la solución de hoy.
Estas plataformas distribuidas permiten utilizar llaves para separar conjuntos de datos en distintos nodos para su procesamiento y almacenaje, todos intentando en mayor medida, mantener su independencia (particionamiento).
En su primera versión data vault utiliza llaves subrogadas autoincrementales para mantener las relaciones entre las distintas entidades del modelo, sin embargo, esto genera una fuerte dependencia entre estas entidades para poder cargarse con datos. Por ejemplo, para cargar datos a un satellite sería indispensable que su hub ya se encuentre con todos los datos cargados para asegurar que al business key se le haya asignado su llave.
En data vault 2.0 este mecanismo se ha modificado para utilizar algoritmos de hashing sobre los business key, de modo que es posible cargar un satellite incluso antes que los datos relacionados en el hub.
Son los sistemas MPP los que permiten escalar de forma horizontal nuestra solución de data warehouse, de forma que medida tengamos cada vez más datos, es posible agregar más nodos a los clusters de nuestras plataformas de software.
Particionamiento horizontal
Teniendo registros de clientes, algunos existirán en el nodo 1 mientras que otros existirán en el nodo 2, distribuyendo así la carga de procesamiento y almacenamientos. Generalmente se determinan algunos atributos que se utilizan para determinar el conjunto de datos que deben existir en el mismo nodo.
<Pendiente establecer la forma apropiada de particionar las tablas de data vault>
Siguiente: Arquitectura - Hashing | Indice