Blog
Selfservice data preparation
Selfservice data preparation: waarom is het cruciaal en hoe pak je het aan?
Onlangs lazen we een rapport van Dataversity over de trends in datamanagement. Toegegeven: sommige tendensen waren niet zo verrassend. Maar wat wel opviel, was dat steeds meer organisaties aan selfservice analytics willen doen, en tegelijk aan selfservice data preparation. En dat is logisch, want het ene kan niet zonder het andere.
Het aantal organisaties dat aan selfservice preparation wil gaan doen, nam volgens Dataversity met 10% toe tot 25%. Terwijl slechts 8,78% het voorbije jaar aan selfservice data preparation deed, tegenover 12,5% een jaar eerder. Dat is een heel positieve trend, want selfservice data preparation is een fundamentele stap om tot goede selfservice reporting te komen.
Data zijn niet zomaar te combineren
Wil je goed inzicht krijgen in wat je bedrijf vandaag realiseert of zou kunnen waarmaken in de toekomst? Dat doe je door data uit verschillende bronnen samen te brengen. Data uit verschillende systemen vallen echter niet altijd zomaar te combineren. Bijvoorbeeld omdat ze verschillende formaten kennen. Heel vaak moet je data bewerken voor je ze kunt gebruiken: data preparation. Je moet de data bijvoorbeeld uniformiseren. Denk maar aan cijfers die in de ene bron in een numerisch veld staan, en in de andere bron in een tekstveld. Die data voeg je niet zomaar samen.
Het probleem is bovendien dat je de nodige skills daarvoor vandaag vaak alleen bij technisch geschoolde IT-medewerkers vindt. Terwijl de business net zelf rapporten wil bouwen. Almaar vaker grijpen ze daarvoor naar de vele tools die daarvoor op de markt beschikbaar zijn. Als die businessmedewerkers daarmee ook zelf de benodigde data kunnen voorbereiden, zou dat een enorme efficiëntiewinst opleveren.
In de traditionele aanpak van rapportering – waarbij de business de gewenste data bij IT opvraagt – gaat liefst 80% van de gespendeerde moeite naar data preparation en slechts 20% naar de eigenlijke interpretatie van de data. Dat is net wat selfservice data preparation wil veranderen. Bij selfservice data preparation daalt de voorbereidingstijd tot slechts 20%. Zo kan je veel sneller tot de eigenlijke data-analyse overgaan. Je hebt meer tijd om dieper in de data te graven, waardoor je er ook meer uithaalt, terwijl je tegelijk de kosten stevig terugdringt.
Nood aan data governance
Met enkel de juiste tool voor selfservice data preparation ben je er echter nog niet. Want data voorbereiden houdt ook in dat je de gegevens moet schoonmaken (data cleansing). Het gaat er dan bijvoorbeeld om problemen met de datakwaliteit op te lossen. En dat doe je natuurlijk niet zomaar volgens je eigen aanvoelen. Kortom: voor je tot selfservice data preparation kunt overgaan, moet er een kader zijn waarbinnen dat gebeurt: data governance, dus.
Op z’n minst moeten alle medewerkers steeds dezelfde definities hanteren als ze data opschonen. Het zorgt ervoor dat iedereen op de juiste manier inschat wat geldt als ‘een bestelling’ of ‘een verkoop’. Tegelijk moet je je altijd kritisch afvragen of je de juiste databronnen gebruikt. Werk je wel met de brondata, en geen afgeleide? Weet ook altijd wie de eigenaar van de databron is, zodat je er problemen met de datakwaliteit aan kan melden.
Tegelijk documenteren alle medewerkers ook best welke issues ze met de data hadden, en volgens welke regels ze die oplosten. Doe dat ook als je tools al heel veel beslissingen voor jou nemen, bijvoorbeeld via machine learning. Want ook dan maken medewerkers die de data hanteren nog keuzes waar toepassingen niets over loggen. Zo bekom je een goede basis voor selfservice data preparation én correcte datasets die cruciaal zijn voor verdere machine learning.
Hoe je van dit alles werk maakt?
Wil je je businessmedewerkers zelf data laten voorbereiden, analyseren en in rapporten gieten? Of machine learning mogelijk maken met correct opgeschoonde data? Dan volstaat het niet om zomaar een tool aan te kopen. Stel ook een data steward aan, die het kader rond die tool uitwerkt, zonder dat die daarbij meteen alles wat hierboven staat, moet realiseren. Werk bijvoorbeeld eerst rond de definities, daarna rond data ownership en data quality. Zo bouw je stap voor stap het benodigde kader uit. Begin klein, eindig groots.
Benieuwd hoe je selfservice data preparation in jouw organisatie kan introduceren? Contacteer ons.
Benieuwd naar ons aanbod aan diensten? Klik hier.