Data Mesh : les piliers d’une entreprise data-driven
Le Data Mesh (ou maillage de données) renvoie à une certaine conception architecturale de la data en entreprise, où on favorise la décentralisation et le partage des données entre les utilisateurs, au profit d’une exploitation plus performante. Réelle approche démocratique, le Data Mesh repose sur 4 principes fondamentaux de fonctionnement et de mise en place, qui garantissent une implémentation réussie et une utilisation qualitative des données.
La philosophie : une propriété des données orientée « domaine »
Le principe de propriété des données orientée domaine (inspiré du Domain-Driven Design ou DDD) va dans le sens de la décentralisation et transforme le modèle organisationnel de l’entreprise. L’architecture Data Mesh implique de décomposer l’écosystème de données en plusieurs domaines, construits autour de métiers et limités au champ d’action de ces métiers. Chaque équipe gère ses propres pipelines de données, avec le schéma spécifique qui lui convient, et en a la responsabilité vis-à-vis du reste de l’entreprise.
En bref, il faut considérer la donnée comme vous considérez l’opérationnel de votre entreprise. Service commercial, marketing, comptable, technique, R&D, analytique… On procède à un découpage métier des données et des usages pour une exploitation plus rationnelle et plus performante car spécialisée. Les métiers, responsables des domaines, sont responsabilisés, gagnent en flexibilité et deviennent plus autonomes dans leur utilisation de la data.
Quelques conseils pour une implémentation réussie :
- Un domaine doit reposer sur une équipe socle solide, souvent composée d’une paire de profils professionnels : un data engineer, celui qui produit la donnée et est chargé de l’implémentation technique, et un product owner, celui qui exploite la donnée.
- Pour définir les différents domaines qui composent votre architecture Data Mesh, réfléchissez en espaces de problèmes pour définir des limites logiques entre les métiers et n’ayez pas peur des données partagées entre les domaines. Tout l’intérêt du Data Mesh est de surmonter les inconvénients du silotage et d’exploiter intelligemment la data.
- Responsabiliser les équipes veut aussi dire mettre en place des règles et attribuer des tâches qui participent à l’amélioration de la qualité des données et à leur bonne gestion (ingestion, nettoyage, utilisation des métadonnées, respect des normes d’interopérabilité, traçabilité, conformité…).
Le produit : la « data as a product »
Le but premier d’une architecture Data Mesh est d’exploiter au mieux la valeur des données de l’entreprise. Or avec la décentralisation et la distribution des données dans les différents domaines, des problématiques d’accessibilité et d’harmonisation peuvent vite se poser. Le product thinking modifie la façon de considérer la data : elle n’est plus un asset mais devient un produit avec sa propre expérience utilisateur et son cycle de vie. Chaque équipe métier dans chaque domaine crée et met à disposition ses propres produits de données ou data products.
Pour rappel, le data product est un produit ou service qui utilise la donnée comme source de valeur principale. Les data products sont donc conçus par les différents domaines métiers pour extraire et traiter des données collectées dans l’entreprise, et les délivrer sous la forme d’analyses, de prédictions, de recommandations. Ils peuvent prendre toute forme utile au domaine de rattachement, par exemple : une ou plusieurs tables dans une base de données, un tableau de bord, une collection de fichiers avec leurs métadonnées, un listing de transactions, un historique d’achats ou de modifications apportées à une application…
Il ne faut pas oublier que l’humain est aussi présent que la technologie dans le data management. Avec le principe de data as a product, les données ont des “consommateurs” finaux, aux compétences différentes, qui ont certaines attentes en termes de qualité et d’accessibilité. C’est pourquoi un produit bien conçu dépend de certaines caractéristiques :
- Accessible : le data product est bien référencé dans un catalogue de données, pour faciliter son exploration et son identification par ses consommateurs
- Adressable : il est localisé à un endroit permanent et unique pour assurer la continuité dans son exploitation par les différents domaines
- Documenté : la donnée exploitée par le data product est documentée pour favoriser la bonne compréhension des consommateurs (provenance, localisation, mise à jour…)
- Fiable : la qualité de la data exploitée est constamment vérifiée et mesurée par les domaines responsables au profit de tous les utilisateurs
- Interopérable : les data products reposent sur des standards communs en faveur du partage et de la réutilisation des données dans l’entreprise
- Sécurisé : la donnée est protégée en fonction de son niveau de sensibilité et des droits d’accès des consommateurs (authentification, chiffrement, cryptage…)
La mise à disposition : le self-service via une infrastructure de données en plateforme
Derrière l’idée de plateforme en self-service, il y a le besoin pour les domaines de consommer et créer des data products en toute autonomie. L’objectif est de permettre l’indépendance des équipes en mettant à leur disposition des outils technologiques pour construire et maintenir des produits interopérables. Au-delà du service rendu aux domaines, cette mutualisation permet de rationaliser et de standardiser la création au travers de l’entreprise, en termes de processus, de technologies utilisées, de stockage etc.
Une infrastructure de données en plateforme efficace repose sur deux points :
- Une conception agnostique : la plateforme ne doit incorporer ni logique ni concept spécifique, inhérents à un des domaines de l’entreprise ;
- Une facilité d’utilisation : la plateforme doit “cacher” les complexités liées à l’exploitation des données et fournir une infrastructure de composants en self-service.
Et une longue liste de services essentiels, comme par exemple : un stockage scalable, un catalogue de données unifié, une gestion des droits et accès, un système de monitoring et d’alertes, des métriques de suivi, des modèles standardisés…
Ce qu’il faut retenir, c’est la nécessité pour la plateforme de représenter un gain de temps pour les équipes domaines dans la création des data products. L’automatisation et la simplification de tous les process sont des prérequis incontournables pour mener à bien votre Data Mesh.
Le pilotage : une gouvernance fédérée
4ème principe et pas des moindres : le pilotage de cette organisation décentralisée. On l’avait déjà évoqué dans un précédent article : la gouvernance est d’une importance capitale dans tout projet d’implémentation Data Mesh, puisqu’elle a un rôle clé de facilitateur et d’autorité de certification. La Data Gouvernance assure le lien entre les data squads, accompagne la transition portée par l’équipe technique et garantit la qualité de la donnée et sa conformité pour tous les domaines.
Pour favoriser une organisation durable, le Data Mesh a besoin d’une gouvernance des données fédérée. En mettant en place des normes d’interopérabilité et de qualité, on va dans le sens du décloisonnement de la data, pour aller vers plus d’agilité. La Data gouvernance est la garante de la valorisation des données comme capital de l’entreprise. C’est pourquoi elle doit permettre de relever des enjeux de taille en gestion de données :
- Améliorer la performance de l’entreprise dans sa globalité
- Aider à la prise de décision
- Réduire les coûts de fonctionnement et d’exploitation
- Gérer le volume de data et structurer les données pour mieux les valoriser
- Acculturer les équipes à l’intérêt de la data pour favoriser son utilisation
- Sécuriser la data, dans le respect des réglementations marché
Nos conseils pour la gouvernance de votre projet Data Mesh :
- Démarrer petit et faire des itérations : inutile de construire un Data Mesh à partir de rien pour l’implémenter dans toute l’entreprise d’un seul coup. Il faut savoir apprendre de vos succès et de vos erreurs, prendre le temps d’évaluer votre approche et mettre en place des règles en phase avec vos besoins et votre utilisation.
- Impliquer les équipes : une implémentation réussie dépend énormément de vos collaborateurs. S’ils ne sont pas engagés dans la création des data products, l’utilisation de la donnée et son maintien, votre projet ne peut pas être un succès.
- Bien s’outiller : de l’excel au data catalogue dédié, il est crucial de choisir le bon outil et la bonne solution technologique suivant la maturité de votre entreprise.
Les 4 piliers d’une entreprise data-driven :
- Une organisation en domaines et sous-domaines pour des métiers responsables et autonomes
- Des data products au service des métiers et de l’interopérabilité
- Une plateforme simple et automatisée en self-service pour favoriser l’utilisation et la création des data products
- Une gouvernance fédérée pour une architecture durable
Avant de vous lancer, un audit organisationnel et technique vous permettra de déterminer la meilleure façon d’entreprendre avec succès votre projet data.