Data fabric es un tipo de arquitectura diseñada para proporcionar acceso unificado a los datos almacenados en varios lugares dentro de una organización.
Este concepto reconoce que la mayoría de las empresas no pueden o no desean consolidar los datos valiosos de cada departamento en un único “data lake” masivo.
En lugar de eso, un data fabric actúa como una capa de abstracción que interactúa con los datos de diferentes silos, uniendo información almacenada en todo, desde enormes bases de datos relacionales tradicionales (RDBMS) hasta pequeñas bases de datos NoSQL departamentales.
Su objetivo es automatizar el descubrimiento de datos y ocultar los detalles de las transacciones CRUD (crear, leer, actualizar y eliminar) para que los usuarios puedan tratar los datos de la empresa como una gran base de información unificada.
Aunque es una solución atractiva para las organizaciones que buscan eliminar los silos de datos, implementar un data fabric no es sencillo, aunque ofrece grandes ventajas.
El concepto fue acuñado a principios de los 2000 por un analista de Forrester, y los consultores de Gartner han sido los que han impulsado esta arquitectura como una categoría distintiva.
Aunque aún no hay un acuerdo universal sobre cómo debe ser la arquitectura del data fabric, y las ofertas de los proveedores etiquetadas como “data fabric” no siempre ofrecen las mismas soluciones.
Arquitectura de Data Fabric: Componentes clave
En términos generales, un data fabric consta de dos partes principales:
- Front-end: una interfaz basada en aplicaciones o web, donde los usuarios pueden ver y configurar las diversas fuentes de datos y los sistemas donde se almacenan.
- Back-end: un motor o varios motores que gestionan la conexión de datos, sincronizan y ajustan los datos, y mantienen un registro automático de las conexiones a las fuentes de datos.
Los componentes esenciales de cualquier arquitectura de data fabric incluyen:
- Ingesta y conectividad de datos: garantiza que los datos de diversas fuentes sean incorporados al tejido, utilizando múltiples patrones de integración.
- Procesamiento y orquestación de datos: refina, transforma e integra los datos mientras automatiza los flujos de trabajo para la eficiencia y escalabilidad.
- Semántica y descubrimiento de datos: crea una comprensión compartida de los datos dentro de la empresa, definiendo relaciones y contexto.
- Gestión y gobernanza de datos: asegura que los datos sean seguros, bien gestionados y de alta calidad, con una fuerte gestión de metadatos.
- Acceso y consumo de datos: permite que los usuarios y sistemas accedan a los datos que necesitan a través de paneles, APIs y herramientas de análisis.
¿Por qué es importante el Data Fabric?
Data fabric es fundamental para organizaciones cuyos datos están silados y fragmentados, y para aquellas que necesitan análisis en tiempo real o buscan habilitar IA generativa y análisis autoservicio para usuarios de negocio.
Este enfoque permite acceder, analizar y procesar los datos de la organización, sin tener que moverlos a un repositorio centralizado, ofreciendo los beneficios de un conjunto de datos unificado sin el dolor de tener que consolidarlo todo.
El futuro de Data Fabric
Se estima que para 2026, el 80% de las 500 principales empresas industriales adoptarán capacidades de data fabric para soportar casos de uso impulsados por IA que requieren conjuntos de datos múltiples.
Aunque el uso de data fabric implica algunos riesgos, como la posibilidad de que las herramientas no cumplan con sus promesas y la necesidad de asegurar la protección de los datos ante accesos no autorizados.
Casos de uso de Data Fabric
- Atención médica: consolidar los registros electrónicos de salud de los pacientes desde múltiples fuentes.
- Manufactura y almacenamiento: analizar datos a través de toda la cadena de suministro e integrar información de dispositivos IoT.
- Retail: habilitar el seguimiento de clientes y la personalización a través de múltiples canales.
Principales proveedores de Data Fabric
Algunos de los proveedores principales de soluciones de data fabric incluyen:
- Denodo
- IBM Cloud Pak for Data
- Tibco Data Fabric
- Google Dataplex
- SAP Datasphere
A medida que los proveedores incorporan nuevos algoritmos de aprendizaje automático para el procesamiento de datos, el espacio de los data fabrics sigue evolucionando rápidamente.