Concepten als datavirtualisatie, data lakes en ‘self service everything’ zullen een grote invloed hebben op de bestaande Business Intelligence en Datawarehouse omgevingen. Het is de hoogste tijd om deze bestaande omgevingen toekomstbestendig te maken. Om ze te transformeren naar ‘Future Proof’ omgevingen. Omgevingen die aansluiten bij de toenemende behoeften om grote hoeveelheden gestructureerde en semi-gestructureerde, realtime en in batch verwerkte gegevens te kunnen analyseren. Maar hoe maak je je omgeving ‘Future Proof’? Hoe pak je dat aan? Dat is de voornaamste focus van een goedbezochte derde editie van het Data Warehousing en Business Intelligence Summit welke op 6 en 7 april in Amsterdam plaatsvond.
Analyse van enorme hoeveelheden en semi-gestructureerde data
Dat de datavolumes waarop we analyses willen uitvoeren almaar groeien is geen nieuws. Niet alleen neemt de hoeveelheid relevante gegevens binnen een organisatie sterk toe, sensor- en social media data zorgen voor een enorme explosie aan gegevens. Een tot de verbeelding sprekend voorbeeld dat tijdens de summit door verschillende sprekers wordt aangehaald, is dat van Cern, de Europese organisatie voor Nucleair onderzoek. De sensoren in de enorme deeltjesversneller van CERN genereren namelijk maar liefst 25 Gigabyte aan data per seconde.
Dat fysieke opslag in een datawarehouse voor zulke datavolumes niet geschikt is, is ook geen verrassing. De volumes zijn gewoon te groot om ze snel genoeg te laden in een database. Bij zulke hoeveelheden data kun je niets anders dan de data opslaan zoals hij binnenkomt, en ervoor zorgen dat deze data benaderbaar is voor verdere analyse. En met de grote hoeveelheden in het voorbeeld van Cern, zal alles in ruw file formaat worden opgeslagen.
En naast deze opslag van enorme hoeveelheden files, waar het Hadoop Distributed File Sytstem (HDFS) uitermate geschikt voor is, zijn er nog andere niet-RDBMS opslagvormen in opkomst. Zo worden voor een sterk groeiend aantal toepassingen op gebieden als mobile en web-commerce, internet of things, video en imaging, mobile gaming en social networking steeds vaker NoSQL databases ingezet. NoSQL databases bieden immers de broodnodige schaalbaarheid en performance in de opslag van alle semi-gestructureerde gegevens die deze toepassingen genereren.
Zowel Rick van der Lans als Mike Ferguson (foto) behandelen in hun sessies de verschillende soorten NoSQL databases. Ze komen met aansprekende voorbeelden van Key value stores, document databases, kolomgeoriënteerde databases en graph databases. Deze databases worden overigens ook vaak gecombineerd met SQL databases, waarbij de SQL database dan wordt gebruikt voor de opslag van gestructureerde transactiegegevens.
Maar ook de NoSQL databases bevatten waardevolle gegevens waarop we analyses willen toepassen. En ook hier is het vanwege de volumes en doorlooptijd vaak niet wenselijk om deze gegevens eerst te transformeren en op te slaan in een SQL database, zoals in een traditioneel datawarehouse. Daar komt nog bij dat er een groeiende behoefte is aan meer realtime operationele analyses op deze data. Daardoor is toevoegen van transformatie- en opslagstappen, zoals in een klassiek datawarehouse, al helemaal geen optie meer.
Van klassiek naar logisch datawarehouse
Maar als het klassieke datawarehouse niet meer volstaat, hoe moeten we dan verder? Welke technologieën maken het wel mogelijk om een grotere hoeveelheid gestructureerde en ongestructureerde gegevens te analyseren? En dit zelfs in (near) realtime als daar de behoefte aan is? Datavirtualisatie, zo geeft Rick van der Lans aan, is een van de technologieën die ons daarbij kunnen helpen. Daarmee zorg je namelijk voor een maximale ontkoppeling tussen opslag en analyse. En hoewel ontkoppeling ook altijd een van de uitgangspunten van het klassieke datawarehouse is geweest, blijkt daar in de praktijk niet veel van terecht te zijn gekomen. Alles zit daar vaak zo aan elkaar vast dat een wijziging in een rapport vaak effect heeft op de hele keten.
In het logisch datawarehouse, dat met de hulp van datavirtualisatietechnologie realiseerbaar is, kan die ontkoppeling wel goed geregeld worden. Daar staat ontkoppeling immers centraal. Zo hoeven de gegevens niet fysiek verplaatst of getransformeerd te worden en kunnen ze gewoon op de fysieke locatie blijven waar ze worden vastgelegd. Ze worden door de datavirtualisatie-server alleen in het geheugen geladen en getransformeerd op het moment dat ze relevant zijn voor een bepaalde uitvraag die plaatsvindt. Een ander voordeel van de toepassing van deze technologie is dat deze tegelijkertijd de koppeling met bronnen als Hadoop en verschillende NoSQL databases faciliteert.
Migratie
Maar stel, je hebt al een bestaand datwarehouse, hoe migreer je deze dan naar een logisch datawarehouse? In zijn sessie over het logisch datawarehouse geeft Rick van der Lans inzicht in de stappen die daarvoor nodig zijn. Hij gaat daarbij uit van een logisch datawarehouse dat uit vier logische specificatielagen is opgebouwd:
• De Source System Layer, welke een of meerdere views bevat per dataset (tabel of file) in de bron. En waarbij iedere view cleansing-specificaties kan bevatten, maar verder een een-op-een afspiegeling van de bron is.
• De Enterprise Data Layer, een bronsysteemneutrale tabelstructuur welke de data in de verschillende bronsystemen integreert. De structuur is in deze laag niet geoptimaliseerd voor een specifieke gebruiker maar ondersteunt al het mogelijk gebruik.
• De Shared Specifications Layer, welke ten behoeve van performance-optimalisatie en afleiding specificaties bevat die door meerdere afnemers worden gebruikt.
• De Data Consumption Layer, helemaal gericht op het gebruik van de data door de eindgebruiker.
Het migratiepad van fysiek naar een logisch datawarehouse dat uit deze lagen is opgebouwd, bestaat vervolgens uit zes stappen waarbij je stap voor stap de functionaliteit in de datawarehouse keten vervangt, en waarbij je begint met het aansluiten van de datamarts.
Van klassiek datawarehouse naar Data Swamps, Lakes en Hubs
Maar ook met de komst van het logisch datawarehouse, blijft het noodzakelijk om historie die niet door het bronsysteem wordt bijgehouden en die wel relevant voor analyses is, op te slaan. Daarnaast moeten alle relevante gegevens die buiten deze bronsystemen gegenereerd worden, en al dan niet gestructureerd of semi-gestructureerd zijn, wel ergens beschikbaar zijn of opgeslagen worden.
In twee verschillende presentaties gaat Krish Krishnan (foto), vanuit zijn brede ervaring, in op de richtlijnen voor het inrichten van Data Swamps, Lakes en Hubs, en de valkuilen die we bij het implementeren daarvan moeten vermijden.
• In het Data Swamp is alle data welkom. Daarbij moeten de gegevens worden opgeslagen zoals ze ontvangen worden, zonder transformaties op de gegevens zelf. Bij het opslaan van deze gegevens, wat in file format gebeurt, worden wel de basis metadata opgeslagen die noodzakelijk zijn om deze data later te kunnen herkennen.
• Het Data Lake is de plaats waar business rules op de gegevens worden toegepast, waar classificatie, contextualisatie, categorisatie en cleansing van de data plaatsvinden. Dit is ook de plaats waar de security van de gegevens moet worden geregeld. Aangezien de requirements en focus van verschillende organisatieonderdelen zullen verschillen, zullen er meerdere data lakes ontstaan. Dit is de plaats waar operational analytics en exploratie plaats vinden.
• De Data Hub, dit is de plaats waar de verrijking plaatsvindt die noodzakelijk is om integratie met andere data-analyse bronnen (zoals een klassiek datawarehouse!) te faciliteren. Dit maakt het mogelijk om big data analytics toe te passen over alle data heen.
Het is dus niet zo dat data deze data swamps, lakes en hubs het datawarehouse gaan vervangen. Nee, ze bieden een broodnodige aanvulling op het datawarehouse. Ze maken het mogelijk om niet alleen in batch verwerkte data te analyseren, maar faciliteren ook (near-) realtime operational analytics op grote hoeveelheden gestructureerde en semi-gestructureerde data.
En de kracht van SQL is voor deze omgevingen nog steeds relevant. Zelfs als het om de analyse van zeer grote hoeveelheden data gaat. Geen wonder dat er binnen het Hadoop-ecosysteem steeds meer producten zijn die SQL ondersteunen. Een grote uitdaging daarbij is wel dat joins in zo’n sterk gedistribueerde omgeving vaak slecht performen. Om deze performance-problemen te tackelen kun je gebruik maken van Apache Spark, een in-memory executie framework dat naast SQL ook Streaming, Machine learning en Graph calculatiefunctionaliteit biedt. Het kan worden gebruikt voor toepassingen die verschillende bronnen benaderen. Het kan gebruikt worden binnen een Hadoop omgeving, maar kan ook rechtstreeks worden geplaatst bovenop SQL databases of andere gestructureerde en semi-gestructureerde bronnen.
Data Governance, Meta- en Masterdata worden belangrijker
Zowel Mike Ferguson als Jan Henderyckx gaan tijdens hun sessies in op het toenemende belang van het hebben van een datastrategie; een strategie om de waarde die we uit de enorme hoeveelheid en variëteit aan gegevens die tot onze beschikking staan te optimaliseren en de negatieve effecten van slechte datakwaliteit te minimaliseren. Daarvoor is het van groot belang om de organisatie, processen en informatietechnologie bij het verwerken en analyseren van deze data goed in te richten.
Data governance is nodig om ervoor te zorgen dat de benodigde informatie voor de juiste persoon op het juiste moment en met de benodigde kwaliteit beschikbaar is. Want foutieve, onvolledige of niet tijdige data leidt tot procesfouten en vertragingen en tot slechte of zelfs foutieve beslissingen. Daarnaast is het zonder data governance niet mogelijk om te voldoen aan de toenemende regulering waarmee organisaties te maken hebben. Zo ook op het gebied van dataprivacy, een onderwerp waar veel over te melden valt, en waar spreker Daragh O Brien dan ook een hele sessie aan wijdt.
En in een omgeving waar de gevarieerdheid aan gegevens alleen maar toeneemt en waar grote hoeveelheden data op steeds meer plaatsen verspreid over verschillende locaties zijn opgeslagen, is data governance een nog grotere uitdaging. Het is dan van belang om vanuit een visie en strategie op informatiemanagement de juiste organisatieinrichting, processen, procedures, methodologieën en technologieën toe te passen. Want ook in een gedistribueerd landschap is een centraal beheer nodig om de consistentie en datakwaliteit te bewaken. Technologie kan daarbij helpen.
Ook meta- en masterdata worden alleen maar belangrijker in zo’n omgeving. Want zonder metadata wordt het onmogelijk om te bepalen waar welke data vandaan komt, en van welke kwaliteit de gegevens zijn. En dat wordt vanuit regelgeving wel vaak vereist. Zonder goede meta- en masterdata wordt het ook onmogelijk om de data goed aan elkaar te kunnen relateren. Want met alleen ‘big data’ heb je alleen data, en geen inzicht. Dat inzicht verkrijg je pas als je de gegevens in context kunt plaatsen. Meta- en masterdata zijn nodig om die context te kunnen bepalen.
Waardevolle Inzichten
Andere onderwerpen die tijdens de summit aan bod komen zijn Datamodellering (Harm van der Lek) en Datavisualisatie (Lex Pierik). Ook zijn er sprekende praktijkvoorbeelden waarin de complexiteit maar ook de successen die met een juiste toepassing van al die data worden bereikt, naar voren komen (Pieter den Hamer en Emiel van Bockel). Daarmee biedt de Summit niet alleen veel waardevolle inzichten in hoe we onze omgeving ‘Future Proof’ kunnen maken, maar biedt het ook veel inspiratie voor de uitdagende weg er naartoe.
(Foto's bij dit verslag: Suzanne Klaver Fotografie.)
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht