27-11-2017 Door: Jos van Dongen

'Vieze data' nog steeds het grootste knelpunt voor Data Scientists

Deel dit bericht

Wie in Google de zoekterm 'dirty data' intikt ziet dat de zoekmachine binnen een halve seconde meer dan acht miljoen resultaten op weet te hoesten. Blijkbaar is er dus nogal wat informatie over 'vieze data' te vinden! Wat opvalt is dat veel van de links al wat ouder zijn; op mijn eerste pagina met resultaten staan links naar artikelen uit 2003 en 2005. Het probleem is dus blijkbaar niet nieuw, maar gegeven de recente aandacht vanuit de data science community wel weer heel actueel.

Onlangs publiceerde de data science competitie-site Kaggle de resultaten van een groot onderzoek met maar liefst 16.000 respondenten wereldwijd. Op de vraag welke barrières men tegen komt tijdens het werk antwoordde bijna 50 procent ‘dirty data’, wat daarmee met stip het grootste struikelblok vormt. Er is echter meer aan de hand: 30 procent geeft aan dat “data unavailable or difficult to access” is, bijna 20 procent noemt “privacy issues”, 17,5 procent “multiple ad-hoc environments” en nog steeds 16,5 procent zegt dat “limitations of tools” een hindernis vormt. Als we dit bij elkaar optellen komt er geen fraai beeld uit; het lijkt een afgezaagd onderwerp waar onze hippe data scientists niet aan schijnen te willen, maar de oorzaak van al deze problemen zit toch echt in het gebrek aan data governance en een goede data architectuur.

Al 30 jaar lang geldt dat 80 procent van de tijd binnen een analytics of BI project besteed wordt aan datapreparatie en maar 20 procent aan analyse. In diezelfde 30 jaar zijn er allerlei hulpmiddelen op de markt gekomen die beloven dat het met behulp van nieuwe technologie naar 20 procent data, 80 procent analyse kan. In goed Nederlands zou ik zeggen: “dream on”. Wat de verhouding ook is of zou moeten zijn: het opzetten en onderhouden van een goede datahuishouding kost tijd, energie, en ja, ook geld dus. Eén van de meest kostbare fouten die momenteel gemaakt wordt is de aanname dat data scientists ook automatisch goede data engineers zijn. Ook hier weer: “dream on”. Bovendien, de meeste data scientists vinden dat ‘gepruts met data’ ook helemaal niet leuk!

Data als centraal thema

Hoe moet het dan wel? Heel simpel: begin met je data serieus te nemen. ‘Data as an asset’, ook al zo’n afgezaagde spreuk, maar daarom niet minder relevant: iedereen wil ‘data driven’ zijn, maar niemand schijnt echt te beseffen wat daarvoor nodig is. Niet het inhuren van een paar slimme data scientists en dan verwachten dat er wonderen gebeuren, maar écht data als centraal thema binnen de bedrijfsvoering opnemen. Met een Chief Data Officer die in de Raad van Bestuur of net daaronder wordt gepositioneerd, met een integrale visie en aanpak rondom data governance, en met de goede data-architecten en data engineers die zich bezighouden met ‘science in data’ in plaats van met ‘data science’.

Wat dat betreft is de nieuwe AVG (GDPR) wetgeving misschien wel een ‘blessing in disguise’: het wordt erg lastig om hieraan te voldoen zónder een integrale visie en aanpak rondom data governance. Om compliant te zijn met de AVG dienen onder andere zaken als rechtmatigheid van de verwerking, het gebruik van data voor profilering en inzicht in waar persoonsgegevens allemaal worden verwerkt, geborgd te zijn. Een recent door SAS uitgevoerd wereldwijd onderzoek naar GDPR compliance laat zien dat er nog een hoop te doen valt voor mei 2018, maar geeft ook aan hoe dit het beste bereikt kan worden. Tot slot valt te lezen hoe je zelfs concurrentievoordeel kunt behalen door zorgvuldig met persoonsgegevens om te gaan. Zorgvuldig betekent niet alleen dat de data veilig moet zijn, maar ook moet kloppen. Ofwel ook hier is dirty data een no go. Dus waar wacht je nog op? Ga aan de slag met data governance!

Jos van Dongen

Jos van Dongen is Principal Consultant bij SAS. Hij is sinds 1990 actief op het gebied van software-ontwikkeling, business intelligence, databases en datawarehouses. Bij SAS helpt hij dagelijks organisaties nieuwe inzichten te halen uit hun data en meer waarde te halen uit data management- en analytics-oplossingen.

Alle blogs van deze auteur

Partners