De laatste jaren is de samenleving complexer geworden. Niet alleen voor ondernemingen, maar ook voor consumenten. Meer dienstverlening, meer producten, meer informatiedeling, meer, meer, meer. Iedere maand worden wereldwijd vele exabytes aan data verwerkt.
Datateams hebben moeite om de toenemende datahoeveelheid en -variëteit het hoofd te bieden. Paul Leventis, Senior Director Software Engineering bij Databricks, werkt in hun R&D-center in Amsterdam aan de oplossing.
Big data, big challenges
“Traditionele datawarehouses zijn simpelweg niet uitgerust om met deze hoeveelheid data om te gaan”, zegt Leventis. “De markt werkt snel, en data-analyse moet op hetzelfde tempo meebewegen. Die dataverwerking gaat simpelweg te langzaam in een warehouse.”
De toenemende hoeveelheid data en de beperkingen in de verwerkingssnelheid zijn maar een deel van het probleem. Datateams moeten deze gegevens vervolgens beschikbaar maken voor andere zakelijke gebruikers en hun systemen. Dat brengt nieuwe vraagstukken met zich mee. Hoe maak je al die data toegankelijk en makkelijk bruikbaar? Hoe voorkom je onnodige duplicatie van gegevens in systemen buiten het datateam?
Het maakt het niet makkelijker dat een geïntegreerde oplossing ontbreekt die alle mogelijke use cases voor dataverwerking kan ondersteunen. “Er is een groot aantal dienstverleners actief op de markt”, zegt Leventis. “Ze bieden allemaal een deel van de oplossing, maar integreren moeilijk of concurreren met elkaar op hetzelfde onderdeel. De geïntegreerde oplossing waarmee datateams ongehinderd kunnen werken, ontbreekt nog.”
Op technisch gebied zag je de laatste tijd wel een aantal stappen in de goede richting. Ten eerste migreren steeds meer ondernemingen hun datawerkzaamheden naar de cloud. Dit brengt enkele voordelen met zich mee: opslag is goedkoop en betrouwbaar, en rekenkracht kan flexibel worden ingezet, waardoor geavanceerde analyse- en machine learning-technieken breder inzetbaar worden.
Maar ook in de cloud hebben ondernemingen last van toenemende complexiteit: er zijn ontzettend veel clouddiensten, producten en technologieën die allemaal een deel van de puzzel oplossen. Maar een geïntegreerd dataplatform dat teams van begin tot eind ondersteunt, ontbreekt nog.
Datalakes en de opkomst van hybride modellen
Naarmate duidelijker werd dat datawarehouses minder tijdsefficiënt om konden gaan met grote hoeveelheden data, schakelden datateams veelal over op datalakes om het leeuwendeel van hun gegevens op te slaan. Ook deze zet bracht uitdagingen met zich mee. “Datalakes kunnen heel snel heel veel data verwerken”, zegt Leventis. “Maar die data is ongestructureerd en rommelig en daardoor verre van geschikt voor geavanceerde use cases.”
Voor veel datateams lag vervolgens de oplossing voor de hand. Als een datawarehouse niet om kan gaan met grote hoeveelheden data, en een datalake niet om kan gaan met geavanceerde analytics, dan knopen we ze toch gewoon aan elkaar? Het hybride datalake-warehousemodel was geboren. Deze opzet gebruikt een datalake voor ETL-processen en het trainen van ML-modellen. Maar voor analyse en rapportage wordt de data gekopieerd naar een gespecialiseerd datawarehouse.
Het klinkt goed, the best of both worlds. Toch is ook deze oplossing niet ideaal. Ten eerste is het een dure oplossing. Leventis: “Constant data kopiëren van lake naar warehouse kost klauwen vol geld en resulteert in een extra pipeline die je moet beheren.” Ten tweede vertraagt het de levering van gegevens aan eindgebruikers. Tot slot komt er veel handwerk kijken bij het onderhoud, beheer en de beveiliging van data op meerdere plekken. Al met al zijn deze hybride systemen duur, broos, en gevoelig voor vertragingen. Hierdoor komen de SLA’s van datateams al snel in het geding.
Een nieuw dataparadigma
Leventis werkt bij Databricks aan een nieuw paradigma: het lakehouse. In tegenstelling tot een hybride warehouse-lake systeem, wordt data in een lakehouse op één enkele plek opgeslagen. Alle use cases met betrekking tot ETL/ELT, machine learning en analytics worden ondersteund. Leventis: “Dit vermindert de noodzaak om gegevens te kopiëren en te verplaatsen naar gespecialiseerde systemen en zorgt voor een verlaging van de totale kosten van datawarehousing.”
Volgens Leventis heeft het lakehouse model twee cruciale eigenschappen die, in tegenstelling tot een hybride warehouse-lake model, enkele van de grootste uitdagingen van datateams oplossen: betrouwbare dataopslag en een high-performance data-engine.
De dataopslag van een lakehouse voldoet aan ACID-regels en kan op cloudsystemen zoals AWS S3 of Azure ADLS gebouwd worden. “Zo maak je allereerst gebruik van de schaalvoordelen en betrouwbaardere opslagmogelijkheden die de cloud biedt,” zegt Leventis. “Vervolgens bouw je daar een laag bovenop, die datateams toegang geeft tot betere indexeringsmogelijkheden en kun je voldoen aan de benodigde garanties omtrent datatransacties.”
Een high-performance data-engine zorgt er daarna voor dat datateams aan de eisen van verschillende gebruikers kunnen voldoen. “Een engine in een lakehouse kan zeer grote hoeveelheden batch- en gestreamde data verwerken om processen schaalbaar te houden. Daarnaast voldoet die engine aan hoge eisen qua gelijktijdigheid en latency – in een lakehouse werken duizenden analisten tegelijkertijd. SQL-query’s moeten dan ontzettend snel uitgevoerd kunnen worden, en dat met datasets van datalake-formaat.”
De toekomst van data
Een lakehouse biedt dus de schaalbaarheid, flexibiliteit en kostenefficiëntie van een datalake, met de high-performance en eenvoudigheid van een datawarehouse, zonder de uitdagingen die een hybride warehouse-lake model met zich meebrengt. Daarmee voldoet een lakehouse volgens Leventis aan de eisen van de overgrote meerderheid van moderne datateams.
Voor Leventis is dit nog maar het begin. In het R&D-center van Databricks in Amsterdam werken Leventis en zijn teams aan de toekomst van data. “Neem het 3V-probleem. Het volume stijgt exponentieel, de verscheidenheid (variety) aan datatypes neemt toe, en alles moet in een oogwenk worden verwerkt (velocity). Apache Spark is al een snelle en efficiënte engine, maar wij werken daarnaast aan een geavanceerd product, Delta Engine, waarmee meer data tegen verminderde latency verwerkt kan worden. We komen dus steeds dichter bij dat toekomstbeeld van realtime big data verwerking.”
Iedere dag werken Leventis’ teams aan die toekomst: “We verbeteren de automatisering, ontwikkelen meer mogelijkheden om de kwaliteit van data te bewaken én we maken governance robuuster dan ooit.” Leventis ziet binnen Databricks de puzzelstukjes op hun plaats vallen. Binnenkort betreden datateams een nieuwe wereld, met ongekende mogelijkheden. The sky is the limit!
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht