Blog
Data warehouse vs data lake
Eerst governance, dan technologie
Natuurlijk moet je bij de zoektocht naar vlot datagebruik nadenken over infrastructuur en technologie. Toch houd je voor de uiteindelijke keuze best ook je nood aan data governance in de gaten.
Bedrijven hebben er de mond van vol: ze dromen van een datagedreven strategie, ook al bevinden ze zich in de praktijk nog maar aan het begin van hun data journey. Financiële rapportering is doorgaans het startpunt, maar wat daarna moet komen is dikwijls nog een groot vraagteken. Bedrijven vragen zich af waarin ze het best kunnen investeren om hun data onderdak te bieden: een data warehouse of een data lake? Bij QuaData zijn we ervan overtuigd dat je bij die beslissing best rekening houdt met data governance.
Data warehouse
Een data warehouse is eigenlijk niets anders dan een relationele database. Je haalt data uit operationele systemen, structureert en bewerkt ze, en plaatst ze in het warehouse. Dat maakt van een data warehouse een oplossing die bijzonder geschikt is wanneer je vooraf een goed zicht hebt op wat je met de data wil doen. Je kunt er data voorbereiden om onmiddellijk te gebruiken. Wil je dat gebruik aanpassen, dan moet je vaak ook het data warehouse aanpassen. Anders gezegd: het denkwerk gebeurt best vooraf.
Op het vlak van data governance biedt een data warehouse het voordeel dat je er met gestructureerde data werkt. Veel info over de data zit mee ingebakken in de structuur van het warehouse. Op het vlak van data governance is het daarom vooral belangrijk de juiste aandacht te besteden aan datakwaliteit.
Data lake
Een data lake bevat allerlei datatypes: gestructureerde, ongestructureerde, ruwe data, enzovoort. De data komt uit de databron en krijgt een plaats in het data lake. Meer gebeurt er in eerste instantie niet. Het bewerken van de data gebeurt niet bij de ‘ingang’, zoals bij een data warehouse, maar aan de ‘achterkant’, op het moment dat de data het data lake verlaat. Dat geeft een hoge graad van flexibiliteit. Op de data die zich in het data lake bevindt, zijn nog geen bewerkingen uitgevoerd of filters toegepast. Het gaat om pure data die je voor allerhande toepassingen kunt inzetten.
Tegelijk houdt die manier van werken ook een risico in. In een data lake bevindt zich veel data bij elkaar met relatief weinig context. Daardoor kan het gebeuren dat je voor een specifieke opdracht data uit het data lake ophaalt, waarvan niet meer helemaal duidelijk is wat de betekenis ervan is. In de context van een data lake is data governance daarom heel belangrijk. Een data lake zonder degelijke data catalog, bijvoorbeeld, is in de praktijk niet werkbaar. Ook op het vlak van de gebruiksrechten van de data moet het data lake goed georganiseerd zijn.
Lakehouse
Een lakehouse is erop gericht de governancerisico’s van een data lake beter te beheersen. Een lake house is in principe een data lake waar een soort data catalog – een laag metadata en governance – aan is toegevoegd.
De slimme keuze
Hoe maak je als bedrijf de juiste keuze maakt voor één van de geschetste oplossingen? Een data warehouse is vaak de duurdere optie, zeker bij grote datavolumes. Een data lake biedt een goedkoper alternatief. Een data lake bevindt zich in de cloud en is daardoor ook makkelijker schaalbaar. Alleen vraagt een data lake meer aandacht – en uiteindelijk dus ook budget – op het vlak van data governance. Wat je uitspaart via cloud storage, ben je op die manier weer kwijt aan data governance. Besparen op dat laatste aspect is immers geen goed idee. Zonder data governance verandert een data lake onvermijdelijk in een data swamp.
Kiezen in functie van de kosten leidt bij een data warehouse of data lake tot het verkeerde debat. De juiste keuze maak je in functie van wat je met de data van plan bent. Wil je er over een paar jaar nog altijd hetzelfde mee doen als vandaag, dan zit je wellicht goed met een data warehouse. Moet je snel kunnen evolueren, maar weet je vandaag nog niet in welke richting dat morgen zal zijn, dan hou je je opties open met een data lake. Hoe dan ook: moet je de keuze maken, denk dan niet alleen aan de technologie, maar ook aan data governance.
Wil je eens sparren over data warehouse vs data lake? Contacteer ons.
Ben je benieuwd naar onze diensten? Ontdek ze hier.