13-06-2019

Is Data Mining dood door Power BI?

Deel dit bericht

In de Februari 2019 release van Microsoft Power BI is een leuke preview visual opgenomen. Het gaat om de Key Influencers Visual waarin Artificial Intelligence is gestopt. Daarmee kan Power BI o.a. voor je bepalen welke klanteigenschappen van invloed zijn op koopgedrag. Enkel een dataset en het gratis te downloaden Power BI Desktop zijn hiervoor nodig.

Kunnen we hierdoor definitief afscheid nemen van de uitgebreide Data Mining functionaliteit in Microsoft SQL Server Analysis Services? Die is namelijk in SQL Server 2017 in “deprecated” status gekomen en zal in opvolgende versies niet meer beschikbaar zijn. Daarnaast is het de vraag of Azure Machine Learning Studio inmiddels ook alweer achterhaald is. Laten we de middelen eens vergelijken.

Key Influencers Visual in Power BI
In de voorbeelden is een dataset benut voor een Targeted Mailing Campaign. Deze is beschikbaar in de Basic Data Mining Tutorial van Microsoft.

Om gebruik te kunnen maken van de Key Influencers Visual, moet bij de Power BI Desktop Opties onder het kopje Preview Features een vinkje bij deze visual aanstaan. Daarmee wordt onderstaand icoontje zichtbaar bij de Visuals. Dit kan vanaf de Februari 2019 update van Power BI Desktop.



1-KIV02.PNG


De dataset voor de Targeted Mailing Campaign bevat klanteigenschappen en een indicator of er wel of geen fiets is gekocht in het verleden (BikeBuyer). Het veld BikeBuyer moet in het “Analyze” segment van de Key Influencers Visual staan en de klanteigenschappen in “Explain by”.


2-KIV03.PNG


Hiermee zal Power BI de invloed van klanteigenschappen bepalen op wel of geen fietsaankoop. Het resultaat is direct zichtbaar, waarbij een “Bachelors” opleiding het meest van invloed lijkt te zijn op het kopen van een fiets (“What influences BikeBuyer to be 1”).

3-KIV04.PNG



Om een goede klantselectie te maken voor een Targeted Mailing Campaign is het van belang om meerdere klanteigenschappen in overweging te nemen. In de Key Influencers Visual kun je daarom segmenten bekijken (combinaties van veldwaarden verspreid over meerdere klanteigenschappen).


4-KIV06.PNG




Het percentage en de populatiegrootte wordt getoond, waarna je kunt inzoomen op meer details. Er wordt dus niet enkel resultaat getoond, maar ook informatie gegeven over hoe dit tot stand is gekomen. Eventueel kan bekeken worden of het nuttig is om een segment verder op te delen door toevoeging van andere velden.


5-KIV07.PNG

 

6-KIV08.PNG





SQL Server Analysis Services Data Mining
Al met al is de Key Influencers Visual goed in de uitleg over de totstandkoming van het resultaat. Echter, de ingebakken methode is verder niet te beïnvloeden. Hoe anders is dat in Data Mining van SQL Server Analysis Services. Daarin kunnen onder meer verschillende Mining Models worden toegepast zoals Decision Tree, Naive Bayes en Clustering. Per model kan er veel ingesteld worden en zijn subselecties van data mogelijk om aftakkingen te maken. Analysis Services Data Mining kan ook bepalen welk model het meest geschikt lijkt voor het vraagstuk wat er speelt. Bij de gehanteerde dataset komt de zogenaamde Lift Chart uit op het Decision Tree model.

7-Lift_Chart.PNG


Door de modellen kan gewandeld worden, of het blikveld kan worden vernauwd of verruimd, zoals hieronder te zien is voor de Decision Tree. De kleurintensiteit laat de mate van beïnvloeding laat zien en het aantal niveaus en histogrammen helpt bij het navigeren door de Decision Tree.


8-Tree_Viewer_-_Decision_Tree.PNG



De vergelijking
Je kunt elke Data Mining run laten wegschrijven naar bijvoorbeeld een database voor verder gebruik of ter referentie. In Data Mining kun je de modellen verder nog uitgebreid testen en trainen worden om de accuratesse verder te verhogen. Over accuratesse gesproken, laten we de resultaten van de Key Influencers Visual eens naast die van de Data Mining exercitie de leggen, zodat we zien hoe deze zich tot elkaar verhouden.

De Decision Tree resultaten van Data Mining heb ik laten wegschrijven naar een database en als tweede query aan Power BI toegevoegd. Hierin ontbreken niet-fietsaankopen, wat logisch is voor gebruik in een marketingcampagne. Deze gegevens zijn vervolgens gefilterd op de prominente eigenschappen in de Key Influencers Visual. Enerzijds voor het beste Buyer Segment en anderzijds voor het beste Non-Buyer segment. De resultaten laten zien dat er geen Data Mining records terugkomen bij Non-Buyer filtering, wat strookt met de gedachte erachter. Andersom komt juist een behoorlijk subset aan records terug met een gemiddelde waarschijnlijkheid van 71%. Dit laat zien dat er geen extreme afwijkingen zijn tussen de methodes van de twee tools.


9-Capture.PNG


Alternatieven
De Key Influencers Visual is niet het enige middel wat Microsoft aanbiedt. Aan SQL Server is namelijk vanaf versie 2017 Machine Learning Services toegevoegd (Python & R) en dit wordt stapsgewijs ook in Azure SQL Database opgenomen. De standalone Microsoft R Server is omgedoopt tot Machine Learning Server door uitbreiding met Python. Power BI kan naast de preview visual gebruik maken van Azure Cognitive Services en custom models die in Azure Machine Learning zijn gemaakt. Azure Machine Learning zelf gaat nog veel verder met onder meer beeldherkenning en sentiment van tekstvelden, naast reguliere statistische operaties. Hieronder is te zien dat Azure Machine Learning Studio een fatsoenlijke interface aanbiedt, waarmee gelijkwaardige componenten kunnen worden ingezet zoals in Data Mining van Analyis Services.


10-Azure_ML_01.png


11-Azure_ML_02.png  

Conclusie
De Key Influencers Visual in Power BI presteert op het eerste gezicht enigszins gelijkwaardig. Maar het model in de visual is verder niet te beïnvloeden en daarmee ongeschikt voor grondige voorspellende behoeftes. Voor de eindgebruiker die graag een eerste indruk wil hebben van beïnvloedende waardes, kan prima uit de voeten met de Key Influencers Visual. Echter, een "snufje Artificial Intelligence” in een eindgebruiker tool vervangt nog niet de benutting van statistische modellen. Het advies blijft staan om na een eerste indruk met statistici dan wel Data Scientists om de tafel te zitten, waarna men serieus aan de slag kan gaan om gedegen voorspellingen te maken. Er zijn legio tools om dat proces te ondersteunen.

Azure Cognitive Services bevat al enige modellen die in Power BI benut kunnen worden. Azure Machine Learning kan veel meer, maar dan moet Azure binnen de cloudstrategie passen, als er überhaupt al een cloudstrategie is. De resultaten van Azure Machine Learning zijn niet zonder meer weg te schrijven naar een database en vooralsnog kan er geen verbinding gemaakt worden met een Analysis Services kubus. Wel kan een mooie integratie met bedrijfsprocessen worden gerealiseerd.

Mocht een onderneming on premise verder willen met een alternatief voor Analysis Services Data Mining, dan biedt SQL Server Machine Learning Services voordelen voor Python en R coders, maar ontbeert het een interface en is dus tech-heavy. Mijn conclusie is dat Data Mining als concept meer dan ooit springlevend is, zo ook bij Microsoft. Hierbij is het gat van de Analysis Services Data Mining tool vrijwel volledig opgevuld in de cloud en soms zelfs meer dan dat, maar on premise zal het nodige gaan ontbreken vanaf SQL Server 2019. De vraag is natuurlijk hoe erg dit zal zijn als iedereen straks toch in de cloud zit...

Dave den Hartog is Senior BI Consultant bij Ensior.

Partners