Ir al contenido principal

Data Vault 2.0 - Arquitectura - Nomenclatura

Una de las tareas más difíciles en el desarrollo es el nombrar los objetos. En un data warehouse se requiere ubicar fácilmente las entidades, la inclusión de nuevos datos y la identificación de las diferentes tipos de entidades.

Manteniendo la consistencia con las bondades de data vault, de modelar el negocio, la nomenclatura no debe perder el objetivo. Para esto es necesario que la forma de nombrar nuestras entidades se mantengan en la línea de representar el negocio. Además con el propósito de mantener la auto generación de las múltiples entidades y procesos de carga, también se vuelve necesario incluir segmentos que describan de forma técnica el tipo de la entidad.

En consideración a las características expresadas en el párrafo anterior, la propuesta es la siguiente:

Unstructured Staging Area:

100_<interfaz>_<nombre original de la fuente>

Structured Staging Area:

200_<interfaz>_<nombre original de la fuente>

Raw Vault:

Hub/Link
300_<negocio>_<producto>_<tipo>_<nombre de negocio>

Satellite
300_<negocio>_<producto>_<tipo>_<nombre de negocio>_<interfaz>_<frecuencia>

Business Vault:

350_<negocio>_<producto>_<tipo>_<nombre de negocio>

Dimension/Fact:

400_<negocio>_<unidad>_<producto>_<tipo>_<nombre de negocio>

A continuación describo las etiquetas utilizadas en la definición de los nombres de las entidades:
  • interfaz: abreviatura de entre 5 y 7 caracteres para expresar el origen de la información. Considerando distinciones entre archivos de texto (tx), repositorio, base de datos, etc. Por ejemplo, txlake -> Archivo de texto proveniente del data lake.
  • negocio: abreviatura de 3 caracteres para expresar una empresa en particular (muy útil cuando trabajas para un grupo corporativo)
  • producto: un producto o servicio principal de la empresa
  • tipo: hub, link, sat, pit, bridge, dim, fact
  • unidad: abreviatura de 3 caracteres que exprese la unidad de negocio dueña de la entidad