10-04-2017 Door: Sjoerd Janssen

Data en analytics, zo doe je dat!

Deel dit bericht

Op 28 en 29 maart vond de vierde editie van de Datawarehousing en Business Intelligence Summit plaats. Concepten als Fast data, internet of data, analytics, Data Vault, datavirtualisatie, het logische datawarehouse en zelfs Logische Data Lakes kwamen alle aan bod, maar er was vooral veel aandacht voor het hoe: hoe consolideer je bestaande datawarehouses en data marts? Hoe integreer je fast en big data met het enterprise datawarehouse? Hoe ga je aan de slag met datavirtualisatie? Hoe implementeer je een data delivery platform? Hoe pas je analytics succesvol toe? En hoe doe je dat allemaal op een agile manier? Daarmee lag de focus van deze goedbezochte summit toch vooral op de praktijk.

De vierde fase: Fast data
Volgens dagvoorzitter en spreker Rick van der Lans gaan we na het klassieke datawarehouse (eerste fase), self-service BI (tweede fase) en big data (derde fase) nu naar een vierde fase van Business Intelligence toe. De fase waarin we analytics ook toepassen op enorme hoeveelheden streaming data die door sensors en weblogs worden gegenereerd. Het analyseren van streaming data is natuurlijk niet iets nieuws. Er zijn genoeg industriële bedrijven die daar al de nodige ervaring mee hebben. Maar de hoeveelheid data, de snelheid waarmee we willen analyseren en de complexiteit van de analyses zijn wel enorm toegenomen. Daarbij komt de uitdaging dat we nu deze data niet alleen voor heel specifieke toepassingen willen inzetten, maar ze breed toegankelijk willen maken en willen combineren met gegevens uit de klassieke Business Intelligence omgevingen.

Rick geeft in zijn presentatie een overzicht van de verschillende soorten producten die als puzzelstukjes bij de invulling van een Fast data architectuur een rol kunnen spelen: producten voor het verzenden (o.a. Apache Kafka en Flume), opslaan (o.a. HDFS, Hbase, NoSQL, NewSQL), analyseren (o.a. Apache Storm, Spark Streaming), minen (o.a. MOA, SOMOA), monitoren en managen (o.a. Apache NiFi, Hortonworks DataFLow) van Fast data passeren de revue. Maar hij gaat met name in op de overwegingen die bij de architectuurkeuzes een rol zouden moeten spelen. Wil je de enorme hoeveelheid aan gegevens wel vasthouden? En zo ja: hoe lang dan? Waar ga je de analyses uitvoeren: centraal, of dicht bij de bron? Wil je analytics embedden in je operationeel proces? Hoe wil je de gegevens en analyses combineren met data uit je klassieke systemen, en waar doe je dat? Overwegingen waar je van tevoren goed over na moet denken, en waarbij je een goede inschatting van de haalbaarheid moet maken om niet in de problemen te komen.

De centrale rol van architectuur
Ook Mark Madsen gaat tijdens zijn eerste presentatie in op de cruciale rol die architectuur heeft bij de uitdagingen om alle soorten data in te zetten voor de doelen die een organisatie heeft. Die doelen, en niet de technologie, zijn nu juist wat centraal zou moeten staan in een architectuur. Hadoop is geen architectuur, het is een set aan technologieën. Het probleem zit vaak ook niet in de technologie, maar wel in hoe deze voor een bepaald doel wordt toegepast. We moeten ons dus vooral richten op hoe de data wordt toegepast, en minder op de data of de technologie zelf. Mark geeft in zijn presentatie een generiek model voor de toepassing van data, dat uit de volgende stappen bestaat:
• Monitoren van data
• Analyseren van uitzonderingen
• Analyseren van de oorzaken van deze uitzonderingen
• Beslissingen maken op basis van de data
• Acties ondernemen op basis van de beslissingen.

Bij stap 5 is er een onderscheid tussen ingrijpen als onderdeel van een proces en acties nemen op basis van de resultaten van een proces. De acties die worden genomen als onderdeel van een proces zijn van tevoren gedefinieerd, en dus voorspelbaar. De uitvoering van deze acties vindt dan ook meestal direct of binnen dezelfde dag plaats. Dat ligt anders bij de acties die genomen worden op basis van de resultaten van een proces. Daar zijn namelijk vaak additionele analyses voor nodig, welke zelf vaak ook weer om nieuwe data vragen.

De grote rol van analytics
Professor Bart Baesens gaat in zijn presentatie in op de toename van het gebruik van analytics, het identificeren van patronen, of genereren van wiskundige modellen op basis van een geprepareerde dataset. Fraudedetectie, social network analyse, het voorspellen van churn, het bepalen van kredietrisico, website optimalisatie, klantsegmentatie en het voorspellen van de klantwaarde zijn sprekende voorbeelden hiervan. Hij behandelt de stappen die in ieder analytics proces genomen moeten worden en werkt enkele concrete voorbeelden uit.

In zijn zeer interactieve presentatie besteedt hij veel aandacht aan wat nu belangrijke succesfactoren zijn voor het toepassen van analytics. Een van die succesfactoren is het vertrouwen dat er aan de businesskant nodig is in het model dat de analist heeft ontwikkeld. Zijn advies daarbij is om met eenvoudige modellen te beginnen zodat dit vertrouwen kan worden opgebouwd. Een tweede succesfactor zit in de operationele efficiency waarmee het model kan worden toegepast. Alhoewel er een neiging bij de analist zal zijn om een zo goed scorend model te bewerkstelligen, is het van belang continu in de gaten te houden welke kosten dit met zich mee brengt, en hoe goed het model kan worden ingebed in de bestaande processen.
 
Bij het succesvol toepassen van analytics, zijn er twee kloven die overbrugd moeten worden. De eerste kloof zit tussen de data en de data scientist. De data is soms ongestructureerd, kan verspreid zijn over verschillende systemen, kan fouten bevatten en kan veranderen over de tijd. Dit terwijl de data scientist juist op zoek is naar patronen, statistische significantie en voorspelbaarheid van het model. De tweede kloof zit tussen de data scientist en de business expert. Waar de data scientist ook een sterke focus moet hebben op de statistische aspecten van het model is de business expert volledig gefocust op de gebieden waarin dit model gaat worden toegepast. Bij het overbruggen van deze twee kloven, zo geeft de professor aan, kan datavisualisatie een grote rol spelen. Aan de ene kant kan datavisualisatie de data scientist helpen om meer inzicht te krijgen in de data, aan de ander kant kan datavisualisatie  helpen het ontwikkelde model te communiceren richting de business expert. En dan niet in de vorm van een complexe formule, maar bijvoorbeeld in de vorm van een tabel of grafiek.

Ook Mark Madsen staat in zijn afsluitende presentatie stil bij het gebruik van analytics. Hij biedt in zijn presentatie de nodige ‘food for thought’ door parallellen te trekken tussen analytics en kunst. Want bij beiden gaat het om een abstractie van de werkelijkheid, en bij beiden gaat het er ook om welk perspectief, of welke perspectieven, je kiest. Daarnaast vertelt hij op amusante wijze over zijn zoektocht naar de oorsprong van de bier en luiers mythe, welke vaak wordt aangehaald als een van de bekendste voorbeelden van een vroege toepassing van analytics.

Bedenkingen bij het data lake
Zowel Mark Madsen als Rick van der Lans gaan in op de hype rondom data lakes. Ten eerste lossen ze lang niet alle data gerelateerde problemen op waar organisaties nu tegenaan lopen. Net als bij datawarehouses spelen hier de governance problemen van een centrale oplossing, want wie bepaalt welke data erin mag en wie toegang krijgt tot welke informatie? En hoe garanderen we de beschikbaarheid? Ten opzichte van een datawarehouse heb je door het toepassen van schema on read wellicht niet de governance uitdagingen van een centraal model. Zo’n schema on read aanpak is immers uitermate flexibel. Maar op sommige momenten wil je ook een bepaalde herhaalbaarheid en datakwaliteit kunnen bereiken.
Ten tweede, zelfs als je een data lake puur en alleen als een speeltuin voor data scientists beschouwt, is het de vraag of dat altijd de beste oplossing is. Data scientists zelf hebben hebben nooit gevraagd om een data lake. Ze hebben alleen gevraagd om toegang tot zo veel mogelijk data. En de vraag is of alle mogelijke data wel in het data lake kan worden opgeslagen. Is het bijvoorbeeld wel haalbaar om alle Fast data op te gaan slaan? Sommige data is gewoon ‘too big to move’, en dan is het wellicht noodzakelijk om de transformaties en analyses daar uit te voeren waar de data wordt geproduceerd.

Datavirtualisatie als redmiddel
Datavirtualisatie technologie, zo beargumenteert Rick van der Lans, kan worden ingezet om de data scientist daadwerkelijk toegang te geven tot alle informatie op een uniforme wijze. Dat brengt allerlei voordelen met zich mee. Zo kan de de data scientist alle data, of deze nu in een datawarehouse of datalake is opgeslagen of rechtstreeks vanuit de bron wordt gekoppeld of gepusht, op een uniforme wijze benaderen. Het vermindert ook de noodzaak om de data buiten de originele bron op te slaan, wat allerlei security en compliance issues voorkomt. En door meerdere lokale datavirtualisatieservers te combineren met een centrale datavirtualisatieserver, kun je zelfs de transformaties naar de lokale data pushen om zo te voorkomen dat er (te) grote hoeveelheden data moeten worden overgepompt.
En dat datavirtualisatie geen onvolwassen technologie is, wordt tijdens het DWH en BI summit duidelijk door verschillende praktijkcases die naar voren komen in de presentaties van Erik Fransen van Centennium, Jos Kuijper van Volkswagen Pon Financial Services en Kishan Shri van Het Erasmus MC.

Zo doe je dat!
Tijdens de summit is er ook aandacht voor concepten die qua toepassing nog in de kinderschoenen staan. Zo gaat Pieter den Hamer in zijn presentatie in op het ‘Internet of Data’ waarbij we, met de combinatie van linked data en artificial intelligence (om de ontologie van een dataset te bepalen of te extraheren) op een meer natuurlijke en dynamische manier data kunnen integreren en analyseren.
Maar de Summit geeft de bezoekers vooral veel praktische handvatten. Ook William McKnight geeft in zijn presentaties veel tips en voorbeelden over hoe je verschillende enterprise datawarehouses en data marts naar een omgeving kunt consolideren en over hoe je Business Intelligence- en datawarehouseprojecten echt agile kunt aanpakken. Deze en andere presentaties en praktijkcases geven de bezoekers van het Summit een goed beeld van hoe je in een organisatie succesvol om kunt gaan met data en analytics. Zo doe je dat!

Sjoerd Janssen

Sjoerd Janssen is Data Governance Architect bij ASML en lid redactieadviesraad BI-Platform.

Alle blogs van deze auteur

Partners