Bij het concept big data zijn in het bijzonder vier aspecten van belang: volume, snelheid, betrouwbaarheid en waarde. Deze eigenschappen kun je in twee categorieën indelen. Het volume en de snelheid hebben betrekking op het generen, verzamelen en opslaan van data. Betrouwbaarheid en waarde gaan over de kwaliteit en bruikbaarheid van data.
Voor de meeste bedrijven is datamanagement een grote uitdaging. Zelfs een kleine hoeveelheid data levert problemen met de kwaliteit en het beheer op. Verder zijn de meeste datasets afkomstig uit verschillende bronnen (de meeste van het web) en formaten - gestructureerd zodat deze direct kan worden gebruikt vanuit een verbonden database en ongestructureerd (uit afbeeldingen, blogs en transactielogboeken) die niet direct verwerkt kan worden.
Wanneer je alleen naar volume en snelheid kijkt, levert dat een probleem op. Veel datasets bevatten ruis (informatie of metadata die van geen of weinig waarde is voor een bedrijf). Met slimme data (waarheidsgetrouwheid en waarde) kun je de ruis eruit filteren en de waardevolle data inzetten om zakelijke problemen voor bedrijven op te lossen.
Vanuit een smartdata benadering kun je altijd stellen dat groter niet altijd beter is. Is een simpele steekproef voldoende voor een voorspellend model? Wat is de marginale invloed van een voorspellend model als het draait op vijf miljoen rijen tegenover tien miljard rijen? Statistisch gesproken is de marginale invloed dan verwaarloosbaar.
Wordt slim in plaats van groot
Er zijn hiervoor geen formules, maar het gaat erom dat je de aanwijzingen in de vragen rondom de data beter begrijpt. Kwalitatieve analyse van data maakt het mogelijk om je niet alleen door data te laten leiden, maar ook door creativiteit. Big data wordt op die manier smart data.
In plaats van alleen maar nar de getallen te kijken en te gokken waarom iets wel of niet werkt, moeten diegenen die met data werken de kwantitatieve en kwalitatieve aspecten gecombineerd analyseren. De data moet jou het verhaal vertellen en daarbij moet je je eigen vooroordelen zoveel mogelijk buiten beschouwing laten.
Alleen veel data hebben is niet genoeg. Het geheim is om de data zeer kritisch te beoordelen: Zijn de gegevens uniform en gelijkmatig? Kan data makkelijk worden verzameld en geanalyseerd? Is er genoeg variatie? Bevinden de gegevens zich in een massa van irrelevante informatie? Het interpreteren van data moet geen willekeurige activiteit zijn maar duidelijk doel hebben met heldere oplossingen en uitvoerbare taken. Immers, het verzamelen en gebruiken van data is alleen zinvol als het helpt besluiten te automatiseren en optimaliseren en problemen op te lossen (data gestuurde besluitvorming).
Er zijn veel voorbeelden waaruit blijkt dat zelfs iets kleins als het veranderen van de kleur van een knop op een website een grote invloed kan hebben. Het doel is dus om door middel van data niet alleen te begrijpen wat er gebeurt, maar ook om de bestaande processen te verbeteren en de gevolgen van veranderingen van een proces te voorspellen.
De focus moet dus niet liggen op het verzamelen van zoveel mogelijk data, maar op het gebruik ervan. Alle stukjes data moeten in hun eigen, specifieke context worden geplaatst. Alleen zo kunnen data worden begrepen en uitgelegd. Wat is bijvoorbeeld de waarde van informatie over een websitebezoeker die op een link klikt, als niet bekend is wat de context is achter deze link?
Het einde van big data?!
Betekent dit nu dat big data dood is? Nee, wat betreft het gedrag van gebruikers zijn inzicht en overzicht van cruciaal belang. Big data speelt daarin een centrale rol. Als er behoefte is aan real time inzicht in het gebruikersgedrag van een bepaalde demografische of geografische groep, waarom zou je dan bruikbare data verwerpen? Gebruik dan vooral big data! Maar als een slim algoritme productaanbevelingen kan doen door kleine datasets te gebruiken, waarom zou je dat voor big data gaan? Het slim gebruiken en toepassen van data gaat verder dan alleen big data. Je moet weten wanneer je een Zwitsers zakmes gebruikt in plaats van een kettingzaag.
Het uiteindelijke doel is de transformatie van een organisatiecultuur waarin alle beschikbare data wordt verzameld en wordt geworsteld met het gegevensbeheer, naar een lerende organisatiecultuur waarin de waarde achter de data wordt ingezet.
Soumendra Mohanty, Global Head of Data & Analytics van Mindtree
2 april 2025 Schrijf in voor al weer de twaalfde editie van ons jaarlijkse congres met wederom een ijzersterke sprekers line-up. Op deze editie behandelen wij belangrijke thema’s als Moderne (Native-Cloud) Data Architecturen, Datawarehouse Desi...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
3 april 2025 Deze workshop met Winfried Etzel behandelt de centrale pijler van Data Mesh: Federated Data Governance. Hoe zorg je voor een goede balans tussen autonomie en centrale regie? Praktische workshop van een halve dag op 3 april in Utre...
3 april 2025 In de snel veranderende wereld van vandaag is het effectief benutten en beheren van gegevens een kritieke succesfactor voor organisaties. Deze cursus biedt een fundamenteel begrip van Master Data Management (MDM) en de centrale ro...
7 t/m 9 april 2025Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare richt...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
14 en 15 mei 2025 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoord op...
Deel dit bericht