07-10-2014

Data roept evenveel vragen op als het beantwoordt

Deel dit bericht

Bij het concept big data zijn in het bijzonder vier aspecten van belang: volume, snelheid, betrouwbaarheid en waarde. Deze eigenschappen kun je in twee categorieën indelen. Het volume en de snelheid hebben betrekking op het generen, verzamelen en opslaan van data. Betrouwbaarheid en waarde gaan over de kwaliteit en bruikbaarheid van data.

Voor de meeste bedrijven is datamanagement een grote uitdaging. Zelfs een kleine hoeveelheid data levert problemen met de kwaliteit en het beheer op. Verder zijn de meeste datasets afkomstig uit verschillende bronnen (de meeste van het web) en formaten - gestructureerd zodat deze direct kan worden gebruikt vanuit een verbonden database en ongestructureerd (uit afbeeldingen, blogs en transactielogboeken) die niet direct verwerkt kan worden.

Wanneer je alleen naar volume en snelheid kijkt, levert dat een probleem op. Veel datasets bevatten ruis (informatie of metadata die van geen of weinig waarde is voor een bedrijf). Met slimme data (waarheidsgetrouwheid en waarde) kun je de ruis eruit filteren en de waardevolle data inzetten om zakelijke problemen voor bedrijven op te lossen.

Vanuit een smartdata benadering kun je altijd stellen dat groter niet altijd beter is. Is een simpele steekproef voldoende voor een voorspellend model? Wat is de marginale invloed van een voorspellend model als het draait op vijf miljoen rijen tegenover tien miljard rijen? Statistisch gesproken is de marginale invloed dan verwaarloosbaar.

Wordt slim in plaats van groot

Er zijn hiervoor geen formules, maar het gaat erom dat je de aanwijzingen in de vragen rondom de data beter begrijpt. Kwalitatieve analyse van data maakt het mogelijk om je niet alleen door data te laten leiden, maar ook door creativiteit. Big data wordt op die manier smart data.

In plaats van alleen maar nar de getallen te kijken en te gokken waarom iets wel of niet werkt, moeten diegenen die met data werken de kwantitatieve en kwalitatieve aspecten gecombineerd analyseren. De data moet jou het verhaal vertellen en daarbij moet je je eigen vooroordelen zoveel mogelijk buiten beschouwing laten.

Alleen veel data hebben is niet genoeg. Het geheim is om de data zeer kritisch te beoordelen: Zijn de gegevens uniform en gelijkmatig? Kan data makkelijk worden verzameld en geanalyseerd? Is er genoeg variatie? Bevinden de gegevens zich in een massa van irrelevante informatie? Het interpreteren van data moet geen willekeurige activiteit zijn maar duidelijk doel hebben met heldere oplossingen en uitvoerbare taken. Immers, het verzamelen en gebruiken van data is alleen zinvol als het helpt besluiten te automatiseren en optimaliseren en problemen op te lossen (data gestuurde besluitvorming).

Er zijn veel voorbeelden waaruit blijkt dat zelfs iets kleins als het veranderen van de kleur van een knop op een website een grote invloed kan hebben. Het doel is dus om door middel van data niet alleen te begrijpen wat er gebeurt, maar ook om de bestaande processen te verbeteren en de gevolgen van veranderingen van een proces te voorspellen.

De focus moet dus niet liggen op het verzamelen van zoveel mogelijk data, maar op het gebruik ervan. Alle stukjes data moeten in hun eigen, specifieke context worden geplaatst. Alleen zo kunnen data worden begrepen en uitgelegd. Wat is bijvoorbeeld de waarde van informatie over een websitebezoeker die op een link klikt, als niet bekend is wat de context is achter deze link?

Het einde van big data?!

Betekent dit nu dat big data dood is? Nee, wat betreft het gedrag van gebruikers zijn inzicht en overzicht van cruciaal belang. Big data speelt daarin een centrale rol. Als er behoefte is aan real time inzicht in het gebruikersgedrag van een bepaalde demografische of geografische groep, waarom zou je dan bruikbare data verwerpen? Gebruik dan vooral big data! Maar als een slim algoritme productaanbevelingen kan doen door kleine datasets te gebruiken, waarom zou je dat voor big data gaan? Het slim gebruiken en toepassen van data gaat verder dan alleen big data. Je moet weten wanneer je een Zwitsers zakmes gebruikt in plaats van een kettingzaag.

Het uiteindelijke doel is de transformatie van een organisatiecultuur waarin alle beschikbare data wordt verzameld en wordt geworsteld met het gegevensbeheer, naar een lerende organisatiecultuur waarin de waarde achter de data wordt ingezet.

Soumendra Mohanty, Global Head of Data & Analytics van Mindtree

Tags:

Beheer, Big Data

Partners