07-12-2020 Door: Pieter Senster

Het data lakehouse: integratie brengt datateams bij elkaar

Deel dit bericht

2.500.000 Terabytes. Zoveel data creëren we per dag met zijn allen. En nu consumenten nóg meer online zijn en bedrijven in sneltreinvaart digitaliseren (veelal in de cloud), zal de hoeveelheid data alleen maar toenemen. Hoe maak je deze data bruikbaar, zonder dat de kosten of complexiteit de pan uit rijzen? Pieter Senster, Engineering Director bij Databricks in Amsterdam, gelooft dat de toekomst van dataverwerking in een nieuw paradigma ligt.

Data lakes en datawarehouses
Tot op heden bestaan twee verschillende opslagmethodes naast elkaar: datawarehouses en data lakes. Dat was nodig, want beide opties zijn geschikt voor verschillende doeleinden en hebben dan ook hun eigen voor- en nadelen. Grote hoeveelheden ongestructureerde en gestructureerde data worden doorgaans opgeslagen in een data lake. Dat is kostentechnisch zeer efficiënt en leent zich voor toepassingen zoals machine learning en datawetenschap, waarvoor grote hoeveelheden gegevens nodig zijn. Datawarehouses bieden weer de prestaties en flexibiliteit die nodig zijn voor snelle en geavanceerde Business Intelligence en analytics.

Als gevolg hebben organisaties dan ook zowel een datawarehouse als een data lake. Verschillende teams werken in verschillende systemen. Volgens Senster blijven organisaties hierdoor gescheiden in hun eigen silo’s, wat uiteindelijk de productiviteit belemmert. “Maar bij onze eigen klanten zien we dat bij hen analytics en datawetenschap steeds dichter naar elkaar toe bewegen. Die complexe architectuur van een met elkaar verweven data lake en datawarehouse is in dat scenario te duur en te langzaam.” Een oplossing voor deze uitdaging is al jaren in de maak. “Wij zagen al vrij vroeg in dat de huidige combinatie van data lake en datawarehouse niet schaalbaar is. Daarom hebben we ons gericht op het realiseren van een nieuwe architectuur: het data lakehouse.”

Een nieuwe, simpelere architectuur
Een data lakehouse versimpelt de data-architectuur binnen hun organisatie, door data analytics, data science en machine learning op een enkel platform te draaien. “Het maakt de verhouding tussen kosten en prestaties tot negen keer beter, omdat het de prestaties van datawarehouses combineert met de kostenefficiëntie van data lakes”, zegt Senster.
Voordat de visie van het lakehouse werkelijkheid kon worden, moesten er nog tal van puzzelstukjes op hun plek vallen. De afgelopen jaren werkte Databricks dan ook stap voor stap aan releases die de lakehouse-architectuur dichterbij brachten, waaronder de release van Delta Lake in 2019. “Delta Lake maakt data lakes betrouwbaarder, schaalbaarder, veiliger én sneller – zonder in te boeten op flexibiliteit en kostenefficiëntie. Dit waren absolute voorwaarden voordat we het lakehouse verder konden ontwikkelen.”

Een jaar later lijkt het lakehouse dan eindelijk te zijn gearriveerd. Een nieuwe oplossing, Databricks SQL Analytics, verwijdert volgens Senster vier overgebleven obstakels die de lakehouse-architectuur blokkeerden: “Om BI-rapportages binnen een data lake te maken moet je SQL-query’s direct kunnen uitvoeren. Daarnaast moet je data kunnen beheren en beveiligen op hetzelfde niveau als binnen een datawarehouse. Om dat te doen, moet je de juiste balans tussen kosten en prestaties vinden én je moet tenslotte data lakes net zo betrouwbaar maken als datawarehouses.”

SQL Analytics biedt een workspace voor data-analisten die gebruikmaakt van een hun bekende SQL-omgeving waar zij binnen hun data lake SQL-query’s kunnen uitvoeren. Hiermee wordt ook ETL-werk erg versimpeld. Datateams hebben volgens Senster niet meer te maken met meerdere databronnen, kopieën van gegevens, of fouten die ontstaan door uitgebreide pipelines. “De kracht van het lakehouse zit in die snel toegankelijke single source of truth.”

Het einde van datawarehouses?
“Het lakehouse is de ideale data-architectuur voor datagedreven organisaties. BI, data science, AI, machine learning – het kan allemaal binnen één geïntegreerd platform.” De lakehouse-architectuur heeft volgens Senster dan ook de toekomst. “Datawarehouses zullen een rol blijven spelen bij veel organisaties. Maar steeds meer organisaties hebben enorme hoeveelheden data opgeslagen in hun data lakes, die ze direct moeten kunnen opvragen en bewerken, of het nu met BI-tools is, zoals Tableau of Microsoft Power BI, of met onze SQL Analytics-oplossing. Hoe dan ook kunnen organisaties met een lakehouse meer werkzaamheden binnen een data lake uitvoeren, wat hun data-architectuur sterk versimpelt, kosten verlaagt, en bedrijfsprocessen versnelt.”

Disciplines dichter bij elkaar
“Wij geloven dat data lakes het zwaartepunt van alle datawerkzaamheden worden”, voorspelt Senster. “De lakehouse-architectuur brengt alle belangrijke data use cases bij elkaar, van streaming analytics tot BI, data science en AI.”
Senster ziet nu al dat organisaties meer waarde halen uit een lakehouse dan uit hun oude architectuur. Hij noemt Wejo als voorbeeld. Dit databedrijf verzamelt wereldwijd data van ruim 50 miljoen auto’s (hier in Europa mede dankzij partnerships met Daimler) en verwerkt deze om de bestuurderservaring te verbeteren. “Met hun lakehouse-architectuur leveren ze verbeterde en geautomatiseerde analyses aan hun klanten, wat inzichten biedt gebaseerd op bijna 5 biljoen datapunten per maand die binnen enkele seconden van de auto’s naar het systeem worden gestreamd.”

Voor Senster en Databricks is dit nog maar het begin. Zij kijken alweer vooruit, naar nieuwe oplossingen die datateams dichter bij elkaar te brengen zodat ze hun uitdagingen efficiënter kunnen overwinnen en beter kunnen innoveren.

Pieter Senster

Pieter Senster is werkzaam bij Databricks Amsterdam als Engineering Director.

Alle blogs van deze auteur

Partners