26-04-2018 Door: Dick Schievels

Ron van der Starre (IBM): Data lake is meer dan techniek alleen

Deel dit bericht

Moderne besluitvorming vindt steeds meer plaats op basis van data. En de modernste besluitvorming bij bedrijven is gestoeld op een data lake. Dat laatste althans is de boodschap van Ron van der Starre, Analytics Portfolio & Information Architect bij IBM. BI-Platform zocht hem op voor een verhelderend gesprek over het wat, hoe en waarom van een data lake, Governance by design, en de kijk van IBM op metadata management.

Zou het niet mooi zijn als bedrijven continu de beschikking hebben over één centraal toegankelijk platform waarop ze alle data die ze intensief willen gebruiken en analyseren, up-to-date krijgen aangeleverd? Eén flexibele dataomgeving, gemakkelijk toegankelijk en eenvoudig in gebruik, voor niet alleen gestructureerde data, doorgaans afkomstig uit traditionele bronnen binnen de organisatie, maar ook de meer ongestructureerde ‘big data’, vaak afkomstig van buitenaf? Ja, dat zou heel mooi zijn! Dat is dan ook exact het concept dat Ron van der Starre voor ogen staat als hij het heeft over een professioneel ingericht data lake.

Portfolio IBM Analytics
Van der Starre is met zijn bijna twintig dienstjaren gepokt en gemazeld bij IBM. In zijn huidige rol als informatiearchitect vertegenwoordigt hij IBM’s Analytics-portfolio bij een viertal grote Nederlandse klanten in de financiële hoek. Goed beschouwd bestrijkt dat portfolio de onderwerpen informatie, integratie en governance. Hij somt op: “Daar zit onze ETL-engine in; daar zit alles in waarmee we profiling doen en datakwaliteitscontrole; daar zit een masterdatamanagement-oplossing in, in verschillende smaken; ook een Information Governance Catalog, waarin we full-fledged metadatamanagement kunnen doen. Daar zitten verder producten in die zich bezighouden met ‘masken’, testdatamanagement en ‘test data fabrication’, voor het zo optimaal mogelijk inrichten van de volledige teststraten van een klant; en dan zit daar natuurlijk Cognos nog in als BI-tool. Bovendien komen er nu steeds meer hybrid cloud-oplossingen bij. Dat betreft zaken die je vanuit public cloud wilt overbrengen naar private cloud; dan moet je denken aan data science-oplossingen, waar we nu al veel mee doen. En tot slot zitten er nog oplossingen in rondom het prepareren van data, wat eigenlijk een soort van self-service ETL is.”

De voedingsbodem voor het data lake
Bovenstaande opsomming illustreert de brede ervaring van Van der Starre, die zich, gebruikmakend van die bagage, de laatste jaren heeft ontwikkeld tot een echte data lake-expert. Geconfronteerd met de onvermijdelijke vraag waarom steeds meer bedrijven een data lake willen, zegt hij: “Sinds de hype rond big data komen veel bedrijven, kijkend naar hun analytisch landschap, tot de conclusie dat ze geen idee meer hebben van wát nu precies wáár gebeurt, hóe dat gebeurt, en wat de kwaliteit ervan is. Totaal geen idee! Dat betekent dat ze niet meer goed kunnen uitleggen hoe de cijfers waarop ze hun beslissingen baseren zijn opgebouwd.”

Daarnaast kunnen volgens Van der Starre veel bedrijven het zich gewoon niet meer veroorloven om er heel complexe datalandschappen op na te houden. “Want als je bijvoorbeeld een bepaald kenmerk wil veranderen, en je hebt misschien wel 20 of 25 datawarehouses met een veelvoud aan datamarts, die elkaar ook nog eens onderling updaten… Ja, ga dan nog maar eens uitzoeken als je één attribuut wil veranderen, waar dat allemaal impact op heeft. Dat leidde ertoe, met name een aantal jaren geleden, dat soms zelfs hele systemen onderuit werden getrokken, omdat men niet meer in kaart had wat nu precies waar werd gebruikt.”

Die twee factoren, te complexe analytische systemen leidend tot te hoge operationele kosten aan de ene kant, en een tanend vertrouwen in de gepresenteerde informatie afkomstig úit die systemen aan de andere kant, maakte en maakt, schetst Van der Starre, dat de door de business gewenste verhoging van de operationele efficiency op basis van dagelijks actuele, data-driven inzichten (in plaats van eens per maand of per week) zonder drastisch ingrijpen in de architectuur van de dataomgeving, niet kan worden verschaft. Dat alles tezamen vormt een vruchtbare voedingsbodem voor het concept ‘data lake’. “En het is snel gegaan”, merkt hij op. “Als je een jaar of vijf geleden bij Google zocht op ‘data lake’, dan vond je nog helemaal niets, terwijl die zoekterm tegenwoordig een bijna eindeloze stroom hits oplevert.”

vdStarre_klein.jpg

(foto: Suzanne Klaver).

Meerdere repository’s
Natuurlijk heeft men bij IBM een eigen kijk op het data lake ontwikkeld. Een van IBM’s onderscheidende kenmerken is bijvoorbeeld dat men in het data lake ten behoeve van de opslag van verschillende typen data meerdere repository’s hanteert. Van der Starre licht toe: “Andere partijen horen we vaak roepen: wij hebben ook een data lake, want we hebben één plek waar we data opslaan, en dat is dan vaak Hadoop. Maar dat is bij ons dus helemaal het idee niet. Want wij willen bijvoorbeeld ruwe data, gewoon in de vorm van kopieën van transactionele systemen, apart kunnen opslaan. Of wij willen misschien wel ergens een geharmoniseerde plek hebben waar we data ‘storen’; dat zijn typisch datawarehouses. Of wij willen misschien wel apart een omgeving hebben waar we discovery en exploratieve analyses kunnen doen; dat noemen wij dan ‘deep data’, maar dat zou heel goed een Hadoop-cluster kunnen zijn. En we willen misschien wel een omgeving hebben waar we data geprefabriceerd klaar zetten voor gebruikers in de vorm van een datamart. Dat is vaak domein- of subjectspecifiek, maar dat kan bijvoorbeeld ook een object store zijn, waar je je data bijvoorbeeld in JSON-formaat opslaat. Of het kan in principe ook een file zijn, die je op een file share zet, zodat iemand hem kan ophalen. Dus daarin onderscheidt ons data lake zich. De term die wij daarvoor hanteren is ‘fit for purpose’.”

Governance by design
“Verder hebben wij gezegd: hét identificerende aspect van onze data lake-oplossing is governance”, vervolgt Van der Starre. “In geval van een datawarehouse wordt een bepaald stuk verantwoordelijkheid doorgaans bij een zogeheten ‘business owner’ neergelegd. Bij het data lake zeggen wij nu: de verantwoordelijkheid daarvoor wordt op enterprise-niveau belegd. Dat betekent dat alle data die gemanaged wordt in een data lake, onder governance wordt geplaatst. Dat wil zeggen dat je moet kunnen begrijpen wat er voor data aanwezig is, hoe een en ander technisch is geïmplementeerd, én dat je moet kunnen laten zien hoe de informatie operationeel gezien door de organisatie stroomt. Met andere woorden: governance by design!”

Metadata management is key
Voor governance by design is gestroomlijnd metadata management cruciaal. Want de manier waarop wij governance inrichten, is volledig op basis van metadata, vastgelegd op drie niveaus, zegt Van der Starre. Op het moment dat er data binnenkomen in het data lake, moeten die allereerst nauwkeurig worden beschreven op businessniveau. Dat houdt in: het door business owners definiëren van termen, het aangeven van welke classificaties en policies erop van toepassing zijn, et cetera. “Dat is in principe allemaal geschreven tekst”, aldus Van der Starre, “die heel gemakkelijk vindbaar en doorzoekbaar moet zijn. Vervolgens wordt in een tweede laag in technische metadata beschreven hoe die termen, classificaties en bijbehorende policy’s geïmplementeerd dienen te worden. Terwijl op de derde en laatste laag registraties plaatsvinden om te kunnen tonen dat wat is voorgeschreven op eerdere niveaus, ook daadwerkelijk is uitgevoerd – iets wat ook wel ‘lineage’ wordt genoemd.”

Die lineage maakt het mogelijk, zo legt Van der Starre uit, dat bijvoorbeeld een businessmedewerker die een bepaalde beslissing neemt op basis van hogere orde-informatie in het data lake, die beslissing helemaal kan herleiden naar de bron, te weten de ruwe gegevens die aan zijn beslissing ten grondslag liggen. “Dat is met name bedoeld om transparantie te bieden; intern maar ook extern. Want stel bijvoorbeeld, jij hebt een bepaald krediet verleend, dan moet ook een toezichthouder kunnen controleren dat je dat hebt gedaan op basis van de daarvoor relevante informatie en niet op basis van een onderbuikgevoel. En sterker nog: dat je dat ook terug in de tijd nog kan aantonen. Dat stelt nogal wat eisen aan de manier waarop je dat allemaal inricht.”

Techniek niet het allerbelangrijkst
Het is heel belangrijk dat je je realiseert dat het inrichten van een data lake veel meer omvat dan alleen techniek, waarschuwt Van der Starre, gevraagd naar wat tips voor data lake-pioniers. “Het data lake is geen avontuurtje of speelgoed voor databasebeheerders of architecten. Het is geen hobbyding! Als je bijvoorbeeld denkt dat je het aankan met alleen maar Hadoop, dan denk ik dat de kans op mislukken groot is. Iets wat in de praktijk trouwens ook veel gebeurt.”
Hij voegt daaraan nog toe: “Het inrichten van de governance, ook daar kan je technisch gezien een nuttige tool voor kopen, zoals bijvoorbeeld de Information Governance Catalog van ons. Daarin zit alles voor wat je maar met metadata zou willen kunnen. Alleen lost ook die tool je belangrijkste problemen niet op. Want die zijn primair politiek van aard. Breng dus de bedrijfspolitieke problemen in de interne organisatie goed in kaart en mobiliseer serieus sponsorship vanuit de top van je organisatie. Want bedrijfspolitiek, organisatie- en cultuurveranderingen worden regelmatig sterk onderschat en zijn vaak veel belangrijker dan technische zaken.”

Laatste tip
Tot slot geeft Van der Starre nog een laatste tip: “Zie het inrichten van een data lake vooral als een evolutionair proces. Dus gooi niet alles weg wat je hebt, zoals ik zo vaak bij Hadoop-achtige oplossingen heb zien gebeuren. Want je zal nog steeds een BI-straat nodig hebben om bijvoorbeeld je basisrapportage of je Solvency-rapportage te doen. Zie de stap naar het data lake dus als een evolutie die functionaliteit, gebruiksgemak en structuur toevoegt en tegelijk de complexiteit van je architectuur reduceert.”

IBM heeft over de in het interview besproken onderwerpen twee RedGuides gepubliceerd:
Governing and Managing Big Data for Analytics and Decision Makers
The Journey Continues: From Data Lake to Data-Driven Organization

Dick Schievels

Dick Schievels studeerde en werkte aan de Universiteit van Amsterdam. Hij studeerde af in de Cognitieve Psychologie met als specialisaties Neuropsychologie en  AI (Artificial Intelligence). Sinds begin jaren negentig is hij werkzaam in de IT-journalistiek. Hij was onder meer hoofdredacteur van de IT-vakbladen LAN Magazine, Infosecurity, NetworkWorld, IT Service Magazine, Database Magazine en Business Process Magazine. Sinds enige jaren runt hij zijn eigen bedrijf: DSJP, Dick Schievels Journalistieke Producties. Van daaruit levert hij bijdragen aan diverse IT-media.

Alle blogs van deze auteur

Partners