Het Centrum Wiskunde & Informatica (CWI) heeft een methode ontwikkeld die nauwkeurig gevoelige gegevens filtert uit de enorme hoeveelheden data van het Humanitarian Data Exchange (HDX) platform van de Verenigde Naties. Deze data zijn onmisbaar voor hulpverlening, maar kunnen ook gevaarlijk zijn als gevoelige informatie in verkeerde handen valt.
Het openbare dataplatform van de Verenigde Naties (VN) bevat ruim 19.300 datasets, geüpload vanaf 254 crisisgebieden van over de hele wereld. Lokale overheden delen er hun data, variërend van conflicten en oorlogen tot overstromingen en andere natuurrampen. Op basis van deze informatie faciliteert de VN de coördinatie van lokale humanitaire hulp.
De datasets bevatten uiteenlopende gegevens, bijvoorbeeld over personen, gebouwen en locaties. “Organisaties zetten deze op het dataplatform zonder zich te realiseren dat bepaalde data schadelijk kunnen zijn als ze in verkeerde handen terechtkomen”, legt onderzoeker Madelon Hulsebos uit, die verbonden is aan de Database Architectures groep van CWI. “Denk bijvoorbeeld aan de coördinaten van ziekenhuizen in oorlogsgebieden, die daardoor een doelwit kunnen worden. Dit soort data moet er dus worden uitgefilterd.”
AI als oplossing
Eerder onderzoek van Hulsebos toonde aan dat kunstmatige intelligentie patronen kan zien in een grote verscheidenheid aan gestructureerde datasets. Op basis van dit inzicht wendde ze AI aan om een oplossing te ontwikkelen voor het HDX-project.
Hulsebos en AI Masterstudent Liang Telkamp ontwikkelden twee mechanismen die data op gevoeligheid analyseren. Ze introduceerden daarin een nieuw concept: contextueel gevoelige data. “Gevoelige data zijn meer dan alleen persoonsgegevens. Bepalend is of de informatie in verkeerde handen schade kan veroorzaken”, licht Hulsebos toe. “Ook kan gevoeligheid tijdgebonden zijn: misschien waren bepaalde gegevens 5 jaar geleden niet gevoelig, maar in deze tijd wel. Of plaatsgebonden: de coördinaten van een ziekenhuis in Nederland zijn minder gevoelig dan die van een ziekenhuis in Gaza. De context van een dataset is dus heel belangrijk.”
Voor een van de AI-mechanismen gebruikten de onderzoekers tekstdocumenten van de VN waarin regels staan over de omgang met data; welke gegevens mogen niet gepubliceerd worden en welke wel? AI koppelde de datasets aan de juiste regels. Vervolgens lieten de onderzoekers diverse LLM’s (Large Language Models, bijvoorbeeld GPT-4 maar ook open source modellen als Qwen) de betreffende regels lezen en op basis daarvan bepalen of de set gevoelige data bevatte.
VN-bijeenkomst in oktober
Hulsebos: “We zagen dat ons LLM-gedreven mechanisme vele malen beter werkt dan een tool van Google die de VN gebruikten. Zo detecteerde Google DLP 63 procent van de gevoelige persoonsgegevens, terwijl ons systeem tot 94 procent kwam.” Door het meegeven van de VN-richtlijnen over gevoelige data, werden de LLM’s bovendien een stuk nauwkeuriger. Het aantal vals-positieven halveerde daardoor.
Inmiddels heeft de VN besloten om de mechanismen in zijn dataplatform te integreren. In oktober zal Hulsebos hierover een presentatie geven tijdens een VN-bijeenkomst in Barcelona.
Andere toepassingen
“Het mooie van deze mechanismen is dat ze ook buiten de VN toepasbaar zijn, bijvoorbeeld op cloudplatforms waar enorme hoeveelheden data worden gedeeld, van bedrijfsgevoelige financiële gegevens tot overheidsdata”, zegt Hulsebos. “Veel publieke data-portals leveren input voor de training van AI-modellen. En ook daar wil je geen gevoelige informatie aantreffen.”
29 en 30 oktober 2025 Deze 2-daagse cursus is ontworpen om dataprofessionals te voorzien van de kennis en praktische vaardigheden die nodig zijn om Knowledge Graphs en Large Language Models (LLM's) te integreren in hun workflows voor datamodel...
3 t/m 5 november 2025Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ri...
17 t/m 19 november 2025 De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot...
25 en 26 november 2025 Worstelt u met de implementatie van data governance of de afstemming tussen teams? Deze baanbrekende workshop introduceert de Data Governance Sprint - een efficiënte, gestructureerde aanpak om uw initiatieven op het...
26 november 2025 Workshop met BPM-specialist Christian Gijsels over AI-Gedreven Business Analyse met ChatGPT. Kunstmatige Intelligentie, ongetwijfeld een van de meest baanbrekende technologieën tot nu toe, opent nieuwe deuren voor analisten met ...
8 t/m 10 juni 2026Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ri...
Alleen als In-house beschikbaarWorkshop met BPM-specialist Christian Gijsels over business analyse, modelleren en simuleren met de nieuwste release van Sparx Systems' Enterprise Architect, versie 16.Intensieve cursus waarin de belangrijkste basisfunc...
Deel dit bericht