12-07-2017 Door: Herbert Ochtman

Data lineage: de brug naar de GDPR-compliance?

Deel dit bericht

Elke organisatie moet vanaf 25 mei 2018 voldoen aan de richtlijnen van de GDPR voor het verwerken en opslaan van privacygevoelige informatie. Een kernelement hierbij is dat je kunt herleiden waar die informatie is opgeslagen en wordt gebruikt. Een belangrijk middel hiervoor is data lineage of, letterlijk vertaald, dataoorsprong of -herkomst. Dit zou voor veel organisaties wel eens de brug kunnen zijn naar GDRP-compliance.

De invoer van de GDPR heeft grote gevolgen voor de informatiehuishouding van organisaties. Toch had deze nieuwe Europese privacywetgeving niet veel later moeten komen. In het bedrijfsleven wordt sinds enkele jaren namelijk steeds meer geïnvesteerd in technologie voor (big) data en analytics. Bedrijven verzamelen daarnaast steeds meer data, zowel van binnen als buiten de organisatie, met als doel hun processen te verbeteren, nieuwe verdienmodellen bloot te leggen, maar vooral – in veruit de meeste gevallen – om de klantervaring te verbeteren. Hierbij wordt per definitie met privacygevoelige persoonsgegevens gewerkt, waardoor de vraag rijst of deze dataverzamelingstrend niet ontzettend conflicteert met de doelstellingen van de GDPR. Deze ogenschijnlijk tegengestelde belangen kunnen elkaar echter ook versterken.

Gestructureerd werken met data
Ondanks het feit dat de GDPR snel dichterbij komt, blijkt uit onderzoek van Gartner dat meer dan de helft van de bedrijven er nog lang niet klaar voor is. Verder wordt benadrukt dat de wet ook geldt voor organisaties buiten de EU die persoonlijke gegevens van Europese burgers opslaan of verwerken. Dit vergroot de impact nog verder. De vraag is nu hoe al deze bedrijven het beste kunnen omgaan met deze nieuwe situatie. Burgers krijgen namelijk weer de controle terug over wat bedrijven met hun persoonsgegevens kunnen en mogen doen, maar de bedrijven die deze gegevens beheren moeten dit vervolgens faciliteren en alle persoonsgegevens inzichtelijk maken. De belangrijkste beginselen van de GDPR zijn:
Dataminimalisatie – de hoeveelheid persoonsgegevens die wordt opgeslagen moet tot een minimum beperkt worden.
Transparantie – organisaties moeten zowel de regelgevende instanties als de burgers zelf inzicht kunnen geven in waar privacygevoelige gegevens opgeslagen en gebruikt worden.
Integriteit – de beveiliging van en toegang tot persoonsgegevens moet optimaal geregeld zijn en inzichtelijk gemaakt worden.
Opslagbeperking – gegevens moeten waar mogelijk zoveel mogelijk worden geanonimiseerd of worden voorzien van pseudoniemen.
Doelbinding – gegevens mogen alleen worden verzameld voor een beoogd doel en niet zomaar worden opgeslagen.

Met name waar het gaat om transparantie zullen bedrijven die zich recent met business intelligence en analytics zijn gaan bezighouden veel herkennen. Die hebben namelijk ook moeten leren om veel gestructureerder om te gaan met hun data. Waar komen de gegevens vandaan? Waarvoor worden ze gebruikt en op welke plaatsen zijn ze precies opgeslagen? Dit is in feite wat data lineage inzichtelijk maakt. Deze techniek wordt in de betere analytics-platformen ondersteund en creëert een mate van inzicht en controle over data waarmee organisaties duidelijk een voordeel hebben bij het invoeren van de processen en rapportages die nodig zijn om aan de GDPR te kunnen voldoen.

Centrale controle over datagebruik
Data lineage beschrijft de tijdlijn van gegevens. Ofwel: wanneer ontstaat data, hoe en wanneer worden ze gewijzigd en in welke bedrijfsprocessen, systemen en documenten worden ze gebruikt? Dit is echter alleen mogelijk met een centraal inzicht in alle bedrijfsdata en een goede integratie met andere datamanagementdomeinen zoals datakwaliteit, security en business glossary’s. Data lineage maakt het voor organisaties veel gemakkelijker om inzicht te krijgen in de kwaliteit van hun data. Dit helpt ze enorm bij het voldoen aan GDPR-rapportages, maar het is bovendien een belangrijk middel om meer waarde te genereren met die data. Het creëren van een dergelijk centraal inzicht in alle data is voor de meeste grote organisaties veel te kostbaar en tijdrovend. Dat is zeker het geval als ze proberen om al hun gegevens met uitvoerige ETL-processen (extract-transform-load) bij elkaar te brengen in één centrale database. Dit is in de praktijk veel te kostbaar en tijdrovend.

Gelukkig is dit niet noodzakelijk, omdat er ook een alternatieve manier is om gegevens zonder complexe data-integratieprocessen centraal te beheren. Een modern enterprise analytics-platform kan namelijk als een soort centrale datahub fungeren voor alle onderliggende bedrijfsdata. Dit houdt in dat alle gegevens binnen een organisatie centraal beheerd en ontsloten worden via dit platform. Dat is veel sneller en kostenefficiënter te realiseren dan de data uit verschillende databases en systemen fysiek te integreren en biedt dus een veel sneller pad naar een centraal inzicht in alle privacygevoelige data en GDRP-compliance. En daarnaast kun je als organisatie vervolgens profiteren van alle voordelen die een enterprise analytics-platform biedt. Denk bijvoorbeeld aan het optimaliseren van de bedrijfsprocessen, het verbeteren van de dienstverlening aan klanten en het bevorderen van datagedreven besluitvorming. Bedrijven die op dit moment nog worstelen met de vraag waar ze in vredesnaam moeten beginnen om GDPR-compliant te worden, zouden daarom eens moeten kijken hoe een enterprise analytics-platform hierbij kan helpen.

Datahandel en datagraaien
De GDPR maakt in feite een eind aan het klakkeloos verzamelen, opslaan en verhandelen van privacygevoelige gegevens. Bedrijven moeten inzichtelijk maken welke persoonsgegevens precies opgeslagen worden en voor welk doel. En bovendien moet de burger daar zelf toestemming voor geven en moet hij deze op een later moment ook weer kunnen intrekken. Dat is goed nieuws voor de Europese burger, die hiermee weer de controle terug krijgt over waar en door wie zijn persoonlijke gegevens gebruikt worden. Het probleem is echter dat de meeste bedrijven geen centraal inzicht hebben in waar persoonsgegevens precies zijn opgeslagen. Dat kan namelijk in een traditionele situatie al op allerlei verschillende plekken zijn. Denk bijvoorbeeld aan een CRM, e-commerce website, e-mailmarketingprogramma, Business Intelligence software op desktop-pc’s of laptops, Excel-spreadsheets en zelfs een fysieke dossiers. De uitdaging wordt nog veel groter als er met big data-oplossingen als Hadoop wordt gewerkt. Dan wordt het nog veel lastiger om aan regulerende instanties te melden welke data er zijn opgeslagen, waar ze vandaan komen en of ze ook accuraat zijn. De meeste toekomstbestendige oplossing voor deze uitdaging is het algehele beheer, de distributie en het gebruik van data binnen een organisatie te centraliseren in een analytics-framework. Hiermee kunnen organisaties de controle terugpakken over hun data die noodzakelijk is om aan de strenge eisen van de GDRP te voldoen. Een enterprise analytics-platform kan dus een brug zijn naar GDPR-compliance, maar bovendien kun je hiermee het fundament leggen om een datagedreven organisatie te worden.

Herbert Ochtman

Herbert Ochtman is EVP of Business Development bij Pyramid Analytics.
Herbert is een ondernemer in hart en nieren met veel ervaring bij het op de markt brengen van innovatieve technologieën. Zo lanceerde hij diverse succesvolle projecten in Europa en de Verenigde Staten, en is hij mede-oprichter en executive vice president business development van Pyramid Analytics. Dit snel groeiende en door Sequoia Capital gefinanceerde bedrijf is gespecialiseerd in het leveren van intuïtieve data-analyse aan zakelijke klanten.

Alle blogs van deze auteur

Partners