27-04-2016 Door: Sjoerd Janssen

Naar 'Future proof' DWH en BI omgevingen - DW&BI Summit 2016

Deel dit bericht

Concepten als datavirtualisatie, data lakes en ‘self service everything’ zullen een grote invloed hebben op de bestaande Business Intelligence en Datawarehouse omgevingen. Het is de hoogste tijd om deze bestaande omgevingen toekomstbestendig te maken. Om ze te transformeren naar ‘Future Proof’ omgevingen. Omgevingen die aansluiten bij de toenemende behoeften om grote hoeveelheden gestructureerde en semi-gestructureerde, realtime en in batch verwerkte gegevens te kunnen analyseren. Maar hoe maak je je omgeving ‘Future Proof’? Hoe pak je dat aan? Dat is de voornaamste focus van een goedbezochte derde editie van het Data Warehousing en Business Intelligence Summit welke op 6 en 7 april in Amsterdam plaatsvond.

Analyse van enorme hoeveelheden en semi-gestructureerde data
Dat de datavolumes waarop we analyses willen uitvoeren almaar groeien is geen nieuws. Niet alleen neemt de hoeveelheid relevante gegevens binnen een organisatie sterk toe, sensor- en social media data zorgen voor een enorme explosie aan gegevens. Een tot de verbeelding sprekend voorbeeld dat tijdens de summit door verschillende sprekers wordt aangehaald, is dat van Cern, de Europese organisatie voor Nucleair onderzoek. De sensoren in de enorme deeltjesversneller van CERN genereren namelijk maar liefst 25 Gigabyte aan data per seconde.

Dat fysieke opslag in een datawarehouse voor zulke datavolumes niet geschikt is, is ook geen verrassing. De volumes zijn gewoon te groot om ze snel genoeg te laden in een database. Bij zulke hoeveelheden data kun je niets anders dan de data opslaan zoals hij binnenkomt, en ervoor zorgen dat deze data benaderbaar is voor verdere analyse. En met de grote hoeveelheden in het voorbeeld van Cern, zal alles in ruw file formaat worden opgeslagen.
En naast deze opslag van enorme hoeveelheden files, waar het Hadoop Distributed File Sytstem (HDFS) uitermate geschikt voor is, zijn er nog andere niet-RDBMS opslagvormen in opkomst. Zo worden voor een sterk groeiend aantal toepassingen op gebieden als mobile en web-commerce, internet of things, video en imaging, mobile gaming en social networking steeds vaker NoSQL databases ingezet. NoSQL databases bieden immers de broodnodige schaalbaarheid en performance in de opslag van alle semi-gestructureerde gegevens die deze toepassingen genereren.

Mike Ferguson

Zowel Rick van der Lans als Mike Ferguson (foto) behandelen in hun sessies de verschillende soorten NoSQL databases. Ze komen met aansprekende voorbeelden van Key value stores, document databases, kolomgeoriënteerde databases en graph databases. Deze databases worden overigens ook vaak gecombineerd met SQL databases, waarbij de SQL database dan wordt gebruikt voor de opslag van gestructureerde transactiegegevens.
Maar ook de NoSQL databases bevatten waardevolle gegevens waarop we analyses willen toepassen. En ook hier is het vanwege de volumes en doorlooptijd vaak niet wenselijk om deze gegevens eerst te transformeren en op te slaan in een SQL database, zoals in een traditioneel datawarehouse. Daar komt nog bij dat er een groeiende behoefte is aan meer realtime operationele analyses op deze data. Daardoor is toevoegen van transformatie- en opslagstappen, zoals in een klassiek datawarehouse, al helemaal geen optie meer.

Van klassiek naar logisch datawarehouse
Maar als het klassieke datawarehouse niet meer volstaat, hoe moeten we dan verder? Welke technologieën maken het wel mogelijk om een grotere hoeveelheid gestructureerde en ongestructureerde gegevens te analyseren? En dit zelfs in (near) realtime als daar de behoefte aan is? Datavirtualisatie, zo geeft Rick van der Lans aan, is een van de technologieën die ons daarbij kunnen helpen. Daarmee zorg je namelijk voor een maximale ontkoppeling tussen opslag en analyse. En hoewel ontkoppeling ook altijd een van de uitgangspunten van het klassieke datawarehouse is geweest, blijkt daar in de praktijk niet veel van terecht te zijn gekomen. Alles zit daar vaak zo aan elkaar vast dat een wijziging in een rapport vaak effect heeft op de hele keten.

In het logisch datawarehouse, dat met de hulp van datavirtualisatietechnologie realiseerbaar is, kan die ontkoppeling wel goed geregeld worden. Daar staat ontkoppeling immers centraal. Zo hoeven de gegevens niet fysiek verplaatst of getransformeerd te worden en kunnen ze gewoon op de fysieke locatie blijven waar ze worden vastgelegd. Ze worden door de datavirtualisatie-server alleen in het geheugen geladen en getransformeerd op het moment dat ze relevant zijn voor een bepaalde uitvraag die plaatsvindt. Een ander voordeel van de toepassing van deze technologie is dat deze tegelijkertijd de koppeling met bronnen als Hadoop en verschillende NoSQL databases faciliteert.

Migratie
Maar stel, je hebt al een bestaand datwarehouse, hoe migreer je deze dan naar een logisch datawarehouse? In zijn sessie over het logisch datawarehouse geeft Rick van der Lans inzicht in de stappen die daarvoor nodig zijn. Hij gaat daarbij uit van een logisch datawarehouse dat uit vier logische specificatielagen is opgebouwd:
• De Source System Layer, welke een of meerdere views bevat per dataset (tabel of file) in de bron. En waarbij iedere view cleansing-specificaties kan bevatten, maar verder een een-op-een afspiegeling van de bron is.
• De Enterprise Data Layer, een bronsysteemneutrale tabelstructuur welke de data in de verschillende bronsystemen integreert. De structuur is in deze laag niet geoptimaliseerd voor een specifieke gebruiker maar ondersteunt al het mogelijk gebruik.
• De Shared Specifications Layer, welke ten behoeve van performance-optimalisatie en afleiding specificaties bevat die door meerdere afnemers worden gebruikt.
• De Data Consumption Layer, helemaal gericht op het gebruik van de data door de eindgebruiker.
Het migratiepad van fysiek naar een logisch datawarehouse dat uit deze lagen is opgebouwd, bestaat vervolgens uit zes stappen waarbij je stap voor stap de functionaliteit in de datawarehouse keten vervangt, en waarbij je begint met het aansluiten van de datamarts.

Krish Krishnan

Van klassiek datawarehouse naar Data Swamps, Lakes en Hubs
Maar ook met de komst van het logisch datawarehouse, blijft het noodzakelijk om historie die niet door het bronsysteem wordt bijgehouden en die wel relevant voor analyses is, op te slaan. Daarnaast moeten alle relevante gegevens die buiten deze bronsystemen gegenereerd worden, en al dan niet gestructureerd of semi-gestructureerd zijn, wel ergens beschikbaar zijn of opgeslagen worden.

In twee verschillende presentaties gaat Krish Krishnan (foto), vanuit zijn brede ervaring, in op de richtlijnen voor het inrichten van Data Swamps, Lakes en Hubs, en de valkuilen die we bij het implementeren daarvan moeten vermijden.
• In het Data Swamp is alle data welkom. Daarbij moeten de gegevens worden opgeslagen zoals ze ontvangen worden, zonder transformaties op de gegevens zelf. Bij het opslaan van deze gegevens, wat in file format gebeurt, worden wel de basis metadata opgeslagen die noodzakelijk zijn om deze data later te kunnen herkennen.
• Het Data Lake is de plaats waar business rules op de gegevens worden toegepast, waar classificatie, contextualisatie, categorisatie en cleansing van de data plaatsvinden. Dit is ook de plaats waar de security van de gegevens moet worden geregeld. Aangezien de requirements en focus van verschillende organisatieonderdelen zullen verschillen, zullen er meerdere data lakes ontstaan. Dit is de plaats waar operational analytics en exploratie plaats vinden.
• De Data Hub, dit is de plaats waar de verrijking plaatsvindt die noodzakelijk is om integratie met andere data-analyse bronnen (zoals een klassiek datawarehouse!) te faciliteren. Dit maakt het mogelijk om big data analytics toe te passen over alle data heen.

Het is dus niet zo dat data deze data swamps, lakes en hubs het datawarehouse gaan vervangen. Nee, ze bieden een broodnodige aanvulling op het datawarehouse. Ze maken het mogelijk om niet alleen in batch verwerkte data te analyseren, maar faciliteren ook (near-) realtime operational analytics op grote hoeveelheden gestructureerde en semi-gestructureerde data.
En de kracht van SQL is voor deze omgevingen nog steeds relevant. Zelfs als het om de analyse van zeer grote hoeveelheden data gaat. Geen wonder dat er binnen het Hadoop-ecosysteem steeds meer producten zijn die SQL ondersteunen. Een grote uitdaging daarbij is wel dat joins in zo’n sterk gedistribueerde omgeving vaak slecht performen. Om deze performance-problemen te tackelen kun je gebruik maken van Apache Spark, een in-memory executie framework dat naast SQL ook Streaming, Machine learning en Graph calculatiefunctionaliteit biedt. Het kan worden gebruikt voor toepassingen die verschillende bronnen benaderen. Het kan gebruikt worden binnen een Hadoop omgeving, maar kan ook rechtstreeks worden geplaatst bovenop SQL databases of andere gestructureerde en semi-gestructureerde bronnen.

Data Governance, Meta- en Masterdata worden belangrijker
Zowel Mike Ferguson als Jan Henderyckx gaan tijdens hun sessies in op het toenemende belang van het hebben van een datastrategie; een strategie om de waarde die we uit de enorme hoeveelheid en variëteit aan gegevens die tot onze beschikking staan te optimaliseren en de negatieve effecten van slechte datakwaliteit te minimaliseren. Daarvoor is het van groot belang om de organisatie, processen en informatietechnologie bij het verwerken en analyseren van deze data goed in te richten.
Data governance is nodig om ervoor te zorgen dat de benodigde informatie voor de juiste persoon op het juiste moment en met de benodigde kwaliteit beschikbaar is. Want foutieve, onvolledige of niet tijdige data leidt tot procesfouten en vertragingen en tot slechte of zelfs foutieve beslissingen. Daarnaast is het zonder data governance niet mogelijk om te voldoen aan de toenemende regulering waarmee organisaties te maken hebben. Zo ook op het gebied van dataprivacy, een onderwerp waar veel over te melden valt, en waar spreker Daragh O Brien dan ook een hele sessie aan wijdt.

En in een omgeving waar de gevarieerdheid aan gegevens alleen maar toeneemt en waar grote hoeveelheden data op steeds meer plaatsen verspreid over verschillende locaties zijn opgeslagen, is data governance een nog grotere uitdaging. Het is dan van belang om vanuit een visie en strategie op informatiemanagement de juiste organisatieinrichting, processen, procedures, methodologieën en technologieën toe te passen. Want ook in een gedistribueerd landschap is een centraal beheer nodig om de consistentie en datakwaliteit te bewaken. Technologie kan daarbij helpen.

BI summit 2016

Ook meta- en masterdata worden alleen maar belangrijker in zo’n omgeving. Want zonder metadata wordt het onmogelijk om te bepalen waar welke data vandaan komt, en van welke kwaliteit de gegevens zijn. En dat wordt vanuit regelgeving wel vaak vereist. Zonder goede meta- en masterdata wordt het ook onmogelijk om de data goed aan elkaar te kunnen relateren. Want met alleen ‘big data’ heb je alleen data, en geen inzicht. Dat inzicht verkrijg je pas als je de gegevens in context kunt plaatsen. Meta- en masterdata zijn nodig om die context te kunnen bepalen.

Waardevolle Inzichten
Andere onderwerpen die tijdens de summit aan bod komen zijn Datamodellering (Harm van der Lek) en Datavisualisatie (Lex Pierik). Ook zijn er sprekende praktijkvoorbeelden waarin de complexiteit maar ook de successen die met een juiste toepassing van al die data worden bereikt, naar voren komen (Pieter den Hamer en Emiel van Bockel). Daarmee biedt de Summit niet alleen veel waardevolle inzichten in hoe we onze omgeving ‘Future Proof’ kunnen maken, maar biedt het ook veel inspiratie voor de uitdagende weg er naartoe.

(Foto's bij dit verslag: Suzanne Klaver Fotografie.)

Sjoerd Janssen

Sjoerd Janssen is Data Governance Architect bij ASML en lid redactieadviesraad BI-Platform.

Alle blogs van deze auteur

Partners