22-07-2021 Door: Sjoerd Janssen

DW & BI Summit 2021: Van datawarehouse naar dataplatform en van BI naar AI

Deel dit bericht

Het aantal sessies van de DataWarehousing en Business Intelligence Summit dat zich op de klassieke vorm van datawarehousing en Business Intelligence richt neemt al jaren af. En dat is een logische ontwikkeling. Data Science is immers voor velen geen onbekend terrein meer.

Daarnaast migreren veel organisaties hun bestaande datawarehousing omgeving naar een, vaak cloud gebaseerd, data platform. Daar komen de werelden van BI en Data Science vaak dichter bij elkaar en komen andere toepassingen zoals realtime en embedded BI binnen handbereik. De achtste editie van deze Summit biedt dan ook waardevolle inzichten en sprekende praktijkcases van hoe je succesvol kunt zijn in deze nieuwe omgeving.

In de praktijk
Een organisatie die in deze coronatijd onder een enorm vergrootglas ligt is het RIVM. Jeroen Alblas en Martijn van Rooijen geven tijdens de Summit een inkijkje in de datakeuken van het RIVM. De uitdaging waar het RIVM mee te maken kreeg was om onder hoge druk bestaande en nieuwe databronnen te ontsluiten, te combineren en te analyseren om inzicht te krijgen in de pandemie. Zo werd een bestaand project voor de monitoring van blootgestelde contacten versneld geïmplementeerd en werd datavirtualisatie toegepast voor het ontsluiten van nieuwe bronnen. De verscheidenheid van deze bronnen, de privacywetgeving en de samenwerking binnen de gehele pandemieketen zorgden voor de nodige uitdagingen om dit tijdig voor elkaar te boksen. Een deel van de data die het RIVM genereert wordt vervolgens ook als open data beschikbaar gesteld. Daarbij hanteert het RIVM het FAIR principe. Deze data moeten Findable, Accessible, InterOperable en Re-usable zijn. Kwaliteitsborging en goede metadata zijn daarbij onmisbaar.

Het FAIR principe wordt in de presentatie van Johan Krebbers, chief technology officer bij Shell, niet expliciet benoemd. Toch richt ook hij zich met het Open Subsurface Data Universe (OSDU) initiatief op het beter beschikbaar, toegankelijk, herbruikbaar en interoperabel maken van data in zijn werkveld: de energiewinning. Dit doet het Open Group OSDU forum door het scheiden van deze data van de applicaties die ze genereren, door het standaardiseren van API’s en het faciliteren van de gestandaardiseerde ontsluiting en opslag van deze gegevens in een data platform. En alles draait daarbij om open standaarden.

Realtime en embedded
Op de roadmap van het OSDU staat als een van de volgende stappen het ervoor zorgen dat het OSDU platform elke benodigde hoeveelheid aan realtime data kan verwerken. Bas Geerdink, Technology Lead en AI Expert bij Aizonic, is iemand met veel ervaring op dit gebied. In zijn presentatie getiteld Fast Data gaat hij in op de concepten, architecturen en technologieën die je kunt gebruiken bij het verwerken en analyseren van realtime streaming data. Uitdagingen die je daarin tegenkomt zijn het juist distribueren van de events zodat je parallel kunt verwerken, de performance-eisen die aan de uitvoering van je machine learning model worden gesteld en het omgaan met tijds-windows en volgorde van events in de verwerking van de gegevens.

Ook wanneer je BI en analytics gaat embedden in een klantapplicatie komt het realtime aspect vaak naar voren. Je wil dan immers dat de klant met de meest up-to-date BI en analytics kan werken om een beslissing te maken. Marc de Haas van Crystalloids gaat in zijn sessie in op hoe je BI kunt embedden in bestaande applicaties om zo je eigen business gebruikers maar ook klanten beter te bedienen. Daarbij is het van belang om over de juiste developper resouces te beschikken. Deze heb je immers nodig om de analytics zo te customizen dat deze naadloos aansluit bij de applicatie waarin deze embedded worden. Wat ook van belang is, is dat je op een omgeving draait die de benodige concurrency en schaalbaarheid kan bieden. Vaak draaien deze analytics dan ook op een cloud based data en analytics platform.

Naar de cloud
Hoe je je bestaande datawarehouse verhuist naar een analytical RDBMS in de cloud licht Industrie analist en consultant Mike Ferguson in zijn sessie op het Summit toe. Bij een dergelijke verhuizing kun je kiezen uit drie migratiestrategieën, waarbij vanuit risico oogpunt de tweede wellicht de voorkeur verdient.
• Lift and shift, oftewel verhuis je bestaande datawarehouse, inclusief alle complexiteit, zonder ingrijpende aanpassingen
• Versimpel je bestaande datawarehouse en verhuis het dan
• Maak een compleet herontwerp in het nieuwe analytische RDBMS en migreer je data daar naartoe.

Om het risico bij migratie nog verder te verminderen zou je, zo geeft Mike aan, ook nog gebruik kunnen maken van data virtualisatie. Door een datavirtualisatielaag op je datawarehouse te zetten, kun je het onderliggende datawarehouse migreren zonder dat je gebruikers daar iets van hoeven te merken.

Eenmaal in het cloud based platform aanbeland wil je natuurlijk profiteren van de voordelen die een cloud analytical RDBMS biedt door een “Modern Datawarehouse” aanpak te hanteren. Daarmee ondersteun je dan niet alleen de traditionele datawarehouse use cases, maar ook zaken als data science, self service, en real-time. Rogier Werschkull licht in zijn presentatie op het Summit in detail toe hoe je dit bereikt. Essentieel daarbij is om te denken in dataproducten en te werken in verschillende lagen waarin je de verschillende functionaliteiten belegt. Waar de eerste laag, waar de historische opslag plaats vindt, nog fysiek wordt gemaakt, zorg je ervoor dat opvolgende lagen allemaal “virtual by design” zijn. Gegevens kunnen vanwege performance redenen nog steeds worden opgeslagen in zo’n laag, maar het idee is dat je de laag kunt weggooien en her genereren op basis van de data die je in de eerste laag hebt opgeslagen.

Hans Pannekoek en Gertjan van het Hof van Advanced Programs bespreken in hun presentatie hoe je zo’n cloud platform vervolgens dan ook in kunt zetten voor data science use cases. In een project voor de Provinciale Zeeuwsche Electricteits-Maatschappij (PZEM) richtten zij een data science omgeving in op het Azure data platform. Natuurlijk beschikte de PZEM al over verschillende modellen om de energiebehoefte van hun klanten te voorspellen, maar naast deze statistische modellen in Matlab en Python, was er bij PZEM een grote behoefte om meer simulaties en machine learning modellen te ontwikkelen. Dit om zo beter in te spelen op de duurzame energie transitie. De Azure omgeving die zij voor PZEM daarvoor hebben ingericht biedt de benodigde flexibiliteit en schaalbaarheid maar ook een betere beheersbaarheid. Dat komt onder andere doordat deze nieuwe omgeving data sharing beter ondersteunt en versiebeheer en deployement van de code middels DevOps tooling faciliteert.

Door de scheiding tussen compute en storage, en de mogelijkheid om deze compute flexibel op te schalen of te reduceren kan deze omgeving ook nog eens kosteneffectief worden gerealiseerd. Toch zijn Hans en Gertjan in hun project voor de PZEM ook tegen de nodige uitdagingen aangelopen. Zo was het nog niet zo eenvoudig om de bestaande MATLAB omgeving succesvol te migreren en integreren in het Azure platform en was de beschikbaarheid van data scientists, die vervolgens ook met de beter geïntegreerde Databricks Datascience omgeving aan de slag konden, beperkt.

Strategie als succesfactor
Naast deze meer technisch georiënteerde sessies was er tijdens het Summit ook de nodige aandacht voor strategie. Want hoe zorg je ervoor dat je succesvol bent met data en analytics? In zijn presentatie op het Summit beschrijft Mark van der Veen van Nationale Nederlanden hoe zij het voor elkaar hebben gekregen om met hun datawarehouse omgeving al sinds 2011 continue nieuwe toegevoegde waarde te leveren voor het pensioenbedrijf van Nationale Nederlanden. Kern van het succes bij de Nationale Nederlanden is een “grand design” in combinatie met iteratieve opleveringen. In dit “grand design” is vanuit een product visie vastgesteld voor wie de data omgeving wordt ingericht, welke problemen en mogelijkheden het adresseert, welke services het beidt en hoe het bijdraagt aan de doelen die er binnen de waardeketen gerealiseerd moeten worden. Ook een logisch datamodel voor de organisatie is onderdeel van dit “grand design”. Daarbij is niet alles in detail uitgewerkt, maar zijn wel de belangrijkste entiteiten voor alle stakeholders opgenomen.

Ook de sessie van Peter Vieveen, datamanagement professional en Vice President Chapter Services van DAMA Nederland, gaat over strategie, namelijk datastrategie. Hij geeft aan dat we in een steeds complexere wereld leven. Een wereld waarin de hoeveelheid data, maar ook de verschillende soorten toepassingen die we met data kunnen realiseren alsmaar toenemen. Een goed voorbeeld van een organisatie die geconfronteerd wordt met deze complexiteit is de belastingdienst. Als strategie voor het omgaan met deze complexiteit kun je, afhankelijk van de data en de toepassing, kiezen voor een combinatie van een defensieve en offensieve aanpak. Daarbij is de defensieve aanpak gericht op integriteit, standaardisatie en governace van de data en het creëren van een single source of truth, zoals bijvoorbeeld bij sales data. De offensieve aanpak is meer gericht op het ondersteunen van doelen zoals het verhogen van de winst en klanttevredenheid, gericht op klant inzichten waarbij je verschillende bronnen moet integreren voor managementbeslissingen. Het gaat dan om “multiple perspectives of the truth”. Bij de offensieve aanpak zullen we moeten accepteren dat data niet 100 procent betrouwbaar is, maar in plaats daarvan een bepaalde betrouwbaarheid heeft. Om beter en meer gebruik van de beschikbare data te kunnen maken is datawijsheid dan ook essentieel. En net zoals kinderen op school worden getraind in media wijsheid, zo betoogd Peter Vieveen, zou je organisaties ook kunnen trainen met behulp van gamificatie in datawijsheid.

Architectuur als succesfactor
Naast strategie kan een juiste architectuurkeuze zeker ook bijdragen aan het succes. Rick van der Lans spreekt in zijn eerste sessie op het Summit over de uitdagingen van gecentraliseerde architectuur waar ook op zo’n nieuw dataplatform vaak voor wordt gekozen. Een centraal datawarehouse, data lake of data hub brengt de nodige uitdagingen met zich mee. Data engineers die daarin werkzaam zijn, moeten immers:
• Een goed begrip van alle data domeinen hebben
• Een goed begrip van alle business rules hebben
• Een goed begrip van de behoeften van alle data consumenten hebben
• Werken met data die vaak niet ontworpen is om te integreren.
En wie is de eigenaar van de data in deze centrale omgeving?

Een data mesh architectuur adresseert deze problemen door een opsplitsing te maken in verschillende data domeinen. Binnen ieder domein kunnen dan verschillende dataproducten (service, bestand, stream, mobile app, et cetera) worden gerealiseerd. Daarbij wordt ervoor gekozen om veel meer verantwoordelijkheid aan het begin van de keten te leggen. Al bij het ontwerpen van een (bron)systeem moet worden nagedacht over de eventuele dataproducten. Om te voorkomen dat er verschillende data-eilanden en inefficiënties ontstaan worden deze wel door een centrale data infrastructuur ondersteund, en vindt er een goede afstemming plaats van eventueel benodigde interfaces tussen deze domeinen.

Maar welke architectuur een organisatie ook kiest, er zal altijd behoefte ontstaan om aan te kunnen passen aan nieuwe behoeften en mogelijkheden. Het afschermen van onderliggende complexiteit door services of door datavirtualisatie kan daarbij helpen. Maar toch is er dan nog steeds veel werk nodig wanneer er veranderingen in de bronsystemen worden doorgevoerd. Het inzetten van generatoren zoals DWH automation tooling, zo betoogd Rick in zijn tweede sessie, levert wellicht nog een grotere bijdrage aan de flexibiliteit waarmee je aanpassingen kunt maken in je architectuur

De volgende stap: van BI naar AI
Dat automation ook negatieve gevolgen kan hebben, blijkt uit de presentatie van Barry Devlin, een van de grondleggers van datawarehousing. Hij geeft in zijn sessie aan dat het onderscheid tussen een BI professional en een data scientist vervaagt. In steeds meer BI tools wordt artificial intelligence functionaliteit ingebakken om de volledige analytics workflow zo goed mogelijk te ondersteunen. Van data preparatie tot exploratie en het genereren van inzichten. Daarbij vindt er ook steeds meer automation plaats waarbij menselijke interventie niet meer nodig lijkt te zijn en zo business processen kunnen worden versneld. Maar het wordt gevaarlijk als we daar te ver in gaan. De rol van intuïtie en motivatie die een mens gebruikt in het proces van informatie naar actie en beslissingen wordt daarmee geëlimineerd. Daarbij is het riskant dat beslissingen om iets te automatiseren (en daarmee de menselijke inbreng te reduceren), vaak financieel gedreven zijn.
Ten derde is het zo dat automation makkelijker te realiseren valt op operationeel niveau en er daardoor een nog grotere disbalans ontstaat tussen de hogere en lagere niveaus in een organisatie. Deze kanttekeningen bij het toepassen van artificial intelligence om geautomatiseerde beslissingen en acties te nemen zijn niet alleen binnen organisaties van toepassing. In de gehele samenleving moeten we hierop alert zijn, zo geeft Barry Devlin aan. Anders verliezen we onze privacy, vrijheid en democratie en belanden we in een “surveillance capitalism” samenleving.

Waardevolle en inspirerende Summit
Met dit ethisch dilemma, maar vooral ook met praktische adviezen en voorbeelden levert de DataWarehouse en BI Summit veel waardevolle inzichten voor een ieder die zich in het werkveld van data en analytics begeeft. Met een goede mix van Nederlandse en internationale sprekers en met de nodige aandacht voor techniek, toepassing, architectuur, strategie, datakwaliteit en ethiek kunnen dan ook terugblikken op een succesvolle achtste editie. Op naar de volgende!

Sjoerd Janssen

Sjoerd Janssen is Data Governance Architect bij ASML en lid redactieadviesraad BI-Platform.

Alle blogs van deze auteur

Partners