Blog

Data governance

Geen analytics zonder data governance

Data is de nieuwe olie. En dus zet je als bedrijf voluit in op business intelligence en data science. Maar krijgt de grondstof – de data zelf – daarbij wel de juiste aandacht? De waarde die je als onderneming via analytics realiseert, staat of valt met het niveau van de gehanteerde data governance. Geen analytics zonder data governance!

Analytics is één van de hot topics van het moment. De belangrijkste assets die je daarbij gebruikt zijn data. Bedrijven gaan meer dan ooit gericht op zoek naar opportuniteiten om waarde te creëren met die data als basis. Alleen bevinden data science, business intelligence en andere vormen van analytics zich per definitie aan het einde van de dataketting. Alleen juiste data governance kan ervoor zorgen dat data-analisten met correcte, complete en relevante datasets aan de slag gaan.

Zicht op het datapad en de datakwaliteit

Heel vaak heb je als onderneming te weinig zicht op de weg die data doorheen de bedrijfsprocessen afleggen. De databronnen zijn doorgaans bekend, het pad dat de data volgen veel minder. Dat is mogelijk een probleem. Hoe langer het pad dat de data afleggen, hoe groter de kans dat de data onderweg worden bewerkt of aangepast. Zonder zicht op het datapad, kan de data scientist onmogelijk inschatten welke impact die bewerkingen of aanpassingen hebben op het resultaat van zijn analyses.

De monitoring van de datakwaliteit vormt alvast een eerste stap in de goede richting. Zonder monitoring van kwaliteit vaart de data scientist blind. Onzekerheid over het niveau van de datakwaliteit laat zich maar moeilijk meenemen in een rapport. Door die onzekerheid – gecombineerd met een gebrek aan afspraken rond datastandaarden en -formaten – zien we dat data scientists vandaag drie vierde van hun tijd aan de voorbereiding van de data besteden. Mocht dat werk – zoals het standaardiseren en valideren van data – al eerder in de ketting plaatsvinden, zou er bij de data scientist veel meer tijd vrijkomen voor de eigenlijke analyse.

Heldere definities

Ook semantiek is in de hele oefening een belangrijk aandachtspunt. We zien nog te vaak dat goede informatie over de betekenis van de data simpelweg ontbreekt. In een kleine organisatie – met een overzichtelijk aantal databronnen en data-elementen – blijft dat enigszins behapbaar. In grote bedrijven bevinden data zich echter op verschillende locaties en in verschillende systemen. Dat geeft aanleiding tot onduidelijkheid, bijvoorbeeld wanneer pakweg ‘klant’ of ‘product’ niet in alle systemen of dezelfde manier dezelfde data-elementen omvat, of wanneer velden labels dragen die voor interpretatie vatbaar zijn. Zo kan een adres bijvoorbeeld zowel een facturatie- een bezoek- of een leverings-adres zijn. Zondere extra context en een goede definitie van de betekenis loop je het risico data samen te voegen die in werkelijkheid over verschillende dingen gaat.

Het gebruik van eenduidige datadefinities en een heldere business glossary – doorheen alle systemen van het hele bedrijf – is dus niet bepaald een overbodige luxe. Dat is zeker het geval wanneer het bedrijf ervoor kiest alle data samen te brengen in een data lake. In een relationele database bevinden data zich binnen een specifieke context. In een data lake valt die context weg, waardoor het belang van sluitende datadefinities alleen maar toeneemt. Data zijn immers altijd gekoppeld aan één of meer bedrijfsactiviteiten, waar context opnieuw een belangrijke rol speelt.

De juiste omkadering

Kortom, wie zijn inspanningen rond business intelligence, analytics en data science correct wil kaderen, kan niet om data governance heen. Geen analytics zonder data governance! Aandacht voor het afgelegde datapad (data lineage), het gebruik van heldere datadefinities (metadata management) en een duidelijk zicht op de datakwaliteit vormen het minimale kader om op een betrouwbare manier met data analytics van start te gaan. Ligt de ambitie bij selfservice business intelligence, dan neemt het belang van data governance nog verder toe. Kort door de bocht: zonder inspanningen op het vlak van data governance, leidt analytics niet tot de gewenste waarde. Drie kwart van de beschikbare tijd gaat op aan de voorbereiding van de data, terwijl de oefening uiteindelijk hoogstens een onbetrouwbaar resultaat oplevert.

Meer weten over data governance? Contacteer ons!

Ben je benieuwd wat we daarnaast aanbieden? Check ons aanbod!

Blog