Wie in Google de zoekterm 'dirty data' intikt ziet dat de zoekmachine binnen een halve seconde meer dan acht miljoen resultaten op weet te hoesten. Blijkbaar is er dus nogal wat informatie over 'vieze data' te vinden! Wat opvalt is dat veel van de links al wat ouder zijn; op mijn eerste pagina met resultaten staan links naar artikelen uit 2003 en 2005. Het probleem is dus blijkbaar niet nieuw, maar gegeven de recente aandacht vanuit de data science community wel weer heel actueel.
Onlangs publiceerde de data science competitie-site Kaggle de resultaten van een groot onderzoek met maar liefst 16.000 respondenten wereldwijd. Op de vraag welke barrières men tegen komt tijdens het werk antwoordde bijna 50 procent ‘dirty data’, wat daarmee met stip het grootste struikelblok vormt. Er is echter meer aan de hand: 30 procent geeft aan dat “data unavailable or difficult to access” is, bijna 20 procent noemt “privacy issues”, 17,5 procent “multiple ad-hoc environments” en nog steeds 16,5 procent zegt dat “limitations of tools” een hindernis vormt. Als we dit bij elkaar optellen komt er geen fraai beeld uit; het lijkt een afgezaagd onderwerp waar onze hippe data scientists niet aan schijnen te willen, maar de oorzaak van al deze problemen zit toch echt in het gebrek aan data governance en een goede data architectuur.
Al 30 jaar lang geldt dat 80 procent van de tijd binnen een analytics of BI project besteed wordt aan datapreparatie en maar 20 procent aan analyse. In diezelfde 30 jaar zijn er allerlei hulpmiddelen op de markt gekomen die beloven dat het met behulp van nieuwe technologie naar 20 procent data, 80 procent analyse kan. In goed Nederlands zou ik zeggen: “dream on”. Wat de verhouding ook is of zou moeten zijn: het opzetten en onderhouden van een goede datahuishouding kost tijd, energie, en ja, ook geld dus. Eén van de meest kostbare fouten die momenteel gemaakt wordt is de aanname dat data scientists ook automatisch goede data engineers zijn. Ook hier weer: “dream on”. Bovendien, de meeste data scientists vinden dat ‘gepruts met data’ ook helemaal niet leuk!
Data als centraal thema
Hoe moet het dan wel? Heel simpel: begin met je data serieus te nemen. ‘Data as an asset’, ook al zo’n afgezaagde spreuk, maar daarom niet minder relevant: iedereen wil ‘data driven’ zijn, maar niemand schijnt echt te beseffen wat daarvoor nodig is. Niet het inhuren van een paar slimme data scientists en dan verwachten dat er wonderen gebeuren, maar écht data als centraal thema binnen de bedrijfsvoering opnemen. Met een Chief Data Officer die in de Raad van Bestuur of net daaronder wordt gepositioneerd, met een integrale visie en aanpak rondom data governance, en met de goede data-architecten en data engineers die zich bezighouden met ‘science in data’ in plaats van met ‘data science’.
Wat dat betreft is de nieuwe AVG (GDPR) wetgeving misschien wel een ‘blessing in disguise’: het wordt erg lastig om hieraan te voldoen zónder een integrale visie en aanpak rondom data governance. Om compliant te zijn met de AVG dienen onder andere zaken als rechtmatigheid van de verwerking, het gebruik van data voor profilering en inzicht in waar persoonsgegevens allemaal worden verwerkt, geborgd te zijn. Een recent door SAS uitgevoerd wereldwijd onderzoek naar GDPR compliance laat zien dat er nog een hoop te doen valt voor mei 2018, maar geeft ook aan hoe dit het beste bereikt kan worden. Tot slot valt te lezen hoe je zelfs concurrentievoordeel kunt behalen door zorgvuldig met persoonsgegevens om te gaan. Zorgvuldig betekent niet alleen dat de data veilig moet zijn, maar ook moet kloppen. Ofwel ook hier is dirty data een no go. Dus waar wacht je nog op? Ga aan de slag met data governance!
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht